Обработка данных секвенирования
This presentation is the property of its rightful owner.
Sponsored Links
1 / 19

Обработка данных секвенирования следующего поколения в один клик PowerPoint PPT Presentation


  • 169 Views
  • Uploaded on
  • Presentation posted in: General

Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача.

Download Presentation

Обработка данных секвенирования следующего поколения в один клик

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


3450554

Обработка данных секвенирования следующего поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom


3450554

Проблемы текущих решений

  • Сложная установка

  • Сложная настройка

  • Медленная работа

  • Плохая воспроизводимость результатов

  • Плохая визуализация результатов


3450554

Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:

  • Простой интерфейс

  • Минимум настроек

  • Высокая скорость работы и воспроизводимость результатов

  • Высокая точность


3450554

Технические сложности

  • Алгоритмическая сложностьи ресурсоемкость (до 1000 CPU*h на анализ)

  • Большой объем входных данных (1-500 Гб)

  • Разные форматы данных FastQ(длины ридов, качество в phred33/phred64)

  • Обеспечение безопасности передачи и хранения данных


3450554

Подход

  • Фильтрация ридов по качеству

  • Картирование

  • Фильтрация по таргетным регионам

  • Поиск SNP и коротких indel

  • Аннотация

  • Сортировка по патогенностии формирование отчета


3450554

Реализация

  • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость)

  • Хранение данных в S3

  • Картирование BWA-MEM

  • Референс hg19 GRCh37.p13 assembly, ver. 73.37

  • КоллингSamTools

  • Аннотация SnpEff

  • Собственная оценка патогенности –ibinomscore


3450554

Выравнивание(симулированные данные)


3450554

Коллинг


3450554

Коллинг


Ibinom score

iBinom Score

  • Машинное обучение с помощью алгоритма градиентного бустинга

  • Обучающая выборка:

    • Патогенные: записи из dbsnp c clinvarclinicalsignificance = pathogenic

    • Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях


Ibinom score1

iBinom Score

Точность: 93.44%

Полнота: 90.96%

F-measure: 92.18%

Обучение по базам и скорам:

1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.


Ibinom

Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace

2. Встроенный тримминг адаптеров

3. Можно объединять несколько файлов в один образец

4. Можно скачать vcf-файл (в формате v.4.1)

5. Для передачи используется шифрованное соединение https


3450554

Планы

  • Система подбора болезней(по симптомам, по списку генов, по списку болезней)

  • Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

    3. Переделка и упрощение интерфейса программы


3450554

Приглашаем к сотрудничеству!

[email protected]


  • Login