120 likes | 269 Views
Задача построения множественного выравнивания. Последовательности в Fasta формате (вход). >sw|P04252|BAHG-VITST Bacterial hemoglobin. MLDQQTINIIKATVPVLKEHGVTITTTFYKNLF >sw|Q8UUR3|CYGB1-DANRE Cytoglobin-1. MEGDGGVQLTQSPDSLTEEDVCVIQDTWKPVYAERDNA GVAVLVRFFTNFPSAKQ
E N D
Задача построения множественного выравнивания
Последовательности в Fasta формате (вход) >sw|P04252|BAHG-VITST Bacterial hemoglobin. MLDQQTINIIKATVPVLKEHGVTITTTFYKNLF >sw|Q8UUR3|CYGB1-DANRE Cytoglobin-1. MEGDGGVQLTQSPDSLTEEDVCVIQDTWKPVYAERDNA GVAVLVRFFTNFPSAKQ >sw|Q575T0|CYGB1-ORYLA Cytoglobin-1. MERKQGEVDHLERSRPLTDKERVMIQDSWAKVYQNCDD AGVAILVRLFVNFPSSKQY >sw|Q575S8|CYGB2-DANRE Cytoglobin-2. MEKEREDEETEGRERPEPLTDVERGIIKDTWARVYASC EDVGVTILIRFFVNFPSAKQY
Выравнивание (выход) ----------------MLDQQTINIIKAT-VPVLKEH---GVTITTTFYKNL------F ---MEGDGGVQLTQSPDSLTEEDVCVIQDTWKPVYAERDNAGVAVLVRFFTNFPSAKQY --MERKQGEVDHLERSRPLTDKERVMIQDSWAKVYQNCDDAGVAILVRLFVNFPSSKQY MEKEREDEETEGRERPEPLTDVERGIIKDTWARVYASCEDVGVTILIRFFVNFPSAKQY • В последовательности вставляются специальные пробельные символы «indel» • Цель минимизировать число пробелов, при максимизации числа «одинаковых» символов в столбце. • По выравниваниям исследуется эволюция геномов и протеомов.
Некоторые известные алгоритмы множественного выравнивания • Последовательные • MAFFT • T-COFFE • ClustalW • MUSCLE • Dialign • Параллельные (реализация для кластера) • ClustalW-MPI • Pdialign • MUSCLE (Модификация для кластеров ВМК МГУ)
Параллельная реализация MUSCLE • В исходном алгоритме модифицирована стадия стадия построения промежуточных выравниваний по бинарному кластерному дереву • Параллелизм за счёт параллельного обхода дерева от листьев к корню. • Программа реализована с использованием языка «PARUS» (http://parus.sf.net). Язык описывает параллельную программу как граф потока данных.
Эффективность алгоритма исследована на выравнивании последовательностей • LTR (Long Terminal Repeat) класса 5 в геноме человека, класс 5 (LTR5) содержит приблизительно 1500 последовательностей по 1200 нуклеотидов. • 13 семейств 1011 аминокислотных последовательностей приблизительно по 300 аминокислотных остатков каждая. • Максимально удалось использовать 500 процессоров машины МВС-100к.
Результаты запуска на Чебышев-МГУ(последовательности LTR5)
Результаты запуска на Чебышев-МГУсемейства белков
Веб-интерфейс • Интернет-сервис создан для повышения доступности использования многопроцессорной техники при решении задачи построения множественного выравнивания. • В текущий момент поддерживает Параллельный MUSCLE и ClustalW-MPI.
Граф изменения статуса задачи поставленной через веб-интерфейс • ready — задача готова к запуску на кластере • submited — запущена на кластере • finished — корректно завершена можно скачать ответ
Биоинформатические HPC ресурсы с факультета ВМК
Наличие программного обеспечения на вычислительных кластерах МГУ