Обработка данных секвенирования
Sponsored Links
This presentation is the property of its rightful owner.
1 / 19

Обработка данных секвенирования следующего поколения в один клик PowerPoint PPT Presentation


  • 193 Views
  • Uploaded on
  • Presentation posted in: General

Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача.

Download Presentation

Обработка данных секвенирования следующего поколения в один клик

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Обработка данных секвенирования следующего поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom


Проблемы текущих решений

  • Сложная установка

  • Сложная настройка

  • Медленная работа

  • Плохая воспроизводимость результатов

  • Плохая визуализация результатов


Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:

  • Простой интерфейс

  • Минимум настроек

  • Высокая скорость работы и воспроизводимость результатов

  • Высокая точность


Технические сложности

  • Алгоритмическая сложностьи ресурсоемкость (до 1000 CPU*h на анализ)

  • Большой объем входных данных (1-500 Гб)

  • Разные форматы данных FastQ(длины ридов, качество в phred33/phred64)

  • Обеспечение безопасности передачи и хранения данных


Подход

  • Фильтрация ридов по качеству

  • Картирование

  • Фильтрация по таргетным регионам

  • Поиск SNP и коротких indel

  • Аннотация

  • Сортировка по патогенностии формирование отчета


Реализация

  • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость)

  • Хранение данных в S3

  • Картирование BWA-MEM

  • Референс hg19 GRCh37.p13 assembly, ver. 73.37

  • КоллингSamTools

  • Аннотация SnpEff

  • Собственная оценка патогенности –ibinomscore


Выравнивание(симулированные данные)


Коллинг


Коллинг


iBinom Score

  • Машинное обучение с помощью алгоритма градиентного бустинга

  • Обучающая выборка:

    • Патогенные: записи из dbsnp c clinvarclinicalsignificance = pathogenic

    • Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях


iBinom Score

Точность: 93.44%

Полнота: 90.96%

F-measure: 92.18%

Обучение по базам и скорам:

1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.


Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace

2. Встроенный тримминг адаптеров

3. Можно объединять несколько файлов в один образец

4. Можно скачать vcf-файл (в формате v.4.1)

5. Для передачи используется шифрованное соединение https


Планы

  • Система подбора болезней(по симптомам, по списку генов, по списку болезней)

  • Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

    3. Переделка и упрощение интерфейса программы


Приглашаем к сотрудничеству!

[email protected]


  • Login