Обработка данных секвенирования
Download
1 / 19

Обработка данных секвенирования следующего поколения в один клик - PowerPoint PPT Presentation


  • 247 Views
  • Uploaded on

Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Обработка данных секвенирования следующего поколения в один клик' - audra


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Обработка данных секвенирования следующего поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom


Проблемы текущих решений

  • Сложная установка

  • Сложная настройка

  • Медленная работа

  • Плохая воспроизводимость результатов

  • Плохая визуализация результатов


Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:

  • Простой интерфейс

  • Минимум настроек

  • Высокая скорость работы и воспроизводимость результатов

  • Высокая точность


Технические сложности

  • Алгоритмическая сложностьи ресурсоемкость (до 1000 CPU*h на анализ)

  • Большой объем входных данных (1-500 Гб)

  • Разные форматы данных FastQ(длины ридов, качество в phred33/phred64)

  • Обеспечение безопасности передачи и хранения данных


Подход

  • Фильтрация ридов по качеству

  • Картирование

  • Фильтрация по таргетным регионам

  • Поиск SNP и коротких indel

  • Аннотация

  • Сортировка по патогенностии формирование отчета


Реализация

  • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость)

  • Хранение данных в S3

  • Картирование BWA-MEM

  • Референс hg19 GRCh37.p13 assembly, ver. 73.37

  • КоллингSamTools

  • Аннотация SnpEff

  • Собственная оценка патогенности –ibinomscore


Выравнивание (симулированные данные)




Ibinom score
iBinom Score

  • Машинное обучение с помощью алгоритма градиентного бустинга

  • Обучающая выборка:

    • Патогенные: записи из dbsnp c clinvarclinicalsignificance = pathogenic

    • Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях


Ibinom score1
iBinom Score

Точность: 93.44%

Полнота: 90.96%

F-measure: 92.18%

Обучение по базам и скорам:

1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.


Ibinom
Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace

2. Встроенный тримминг адаптеров

3. Можно объединять несколько файлов в один образец

4. Можно скачать vcf-файл (в формате v.4.1)

5. Для передачи используется шифрованное соединение https


Планы

  • Система подбора болезней(по симптомам, по списку генов, по списку болезней)

  • Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

    3. Переделка и упрощение интерфейса программы


Приглашаем к сотрудничеству !

[email protected]


ad