430 likes | 744 Views
Использование биоинформатики в практической молекулярной биологии. И.И. Артамонова, ИОГен РАН. План. Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции.
E N D
Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН
План Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции
Почему нас интересует локальное сходство последовательностей? Мы верим, что: 1. функцию, структуру и многие другие свойства белка/ДНК определяет последовательность; • родственные белки имеют похожие свойства • молекулы, похожие по последовательности, похожи и по свойствам Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка) Признаки гомологичности белков • сходная 3D-структура • в той или иной степени похожая аминокислотная последовательность • аналогичная функция • разные другие соображения…
Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.
Средство поиска сходства - выравнивание «Идеальное» выравнивание – запись последовательностей одна под другойтак, чтобы гомологичные фрагментыоказались друг под другом. домовойскупидомводомерка лесовоз ---лесо---воз ледоход лед---оход---
Схожие 3D структуры Вставка в «синей» последовательности
Как выровнять две последовательности? Цель - максимальное количество совпадений • Просто написать их друг под другом • Двигать друг относительно друга • Вставлять пробелы лесовоз ---лесо---воз ледоход лед---оход--- Гэп – пропуск в последовательности
Типы выравнивания • Локальное – поиск фрагментов наиболее похожих друг на друга домовой домовой домовой скупидомводомеркаводомерка • Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз ---лесо---воз ледоход лед---оход--- ?
Критерии качества выравнивания • Количество идентичных (похожих) аминокислот/нуклеотидов • Для белков – более 25%id при длине > 100 aa • Для ДНК – более 70%id при длине > 100 nt • Длина выравнивания • Вероятность наблюдать такое сходство случайным образом • Зависит от базы данных • Score – общая мера сходства: • Зависит от программы
BLAST – Basic Local Alignment and Search Tool • Локальное выравнивание • Главная задача – поиск похожих последовательностей в базах данных (=> главное достоинство – скорость) • Очень неточно восстанавливает сходство • Основная программа поиска по БД • Для специализированных БД часто предлагается на сайте БД • Для поиска среди известных последовательностей есть специальные сервера
Выбор параметров • Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций) • Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу
Какие параметры менять? Фильтрация • Low-complexity region – другой aa-состав • Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации • Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную • ДНК – геном-специфичные повторы!
Параметры выравнивания • Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM • Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания) • РАМ – чем ниже, тем строже • Штрафы за делеции: • Чем больше штраф за внесение, тем короче выравнивания • Меняете матрицу – надо менять и штраф • Чем ниже номер BLOSUM (выше РАМ),тем меньше штраф за внесение делеции • Штраф за удлинение ~10 раз ниже, чем за внесение • Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение • Близкие гомологи – штрафы ближе друг к другу
Параметры output-формата • Количество хитов • Выбор базы данных (организм) • Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные) • Entrez query – ключевые слова (например, “protease AND human”)
Что такое множественное выравнивание? Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом: • Гомологичные остатки один под другим • Остатки в одинаковом пространственном положении один под другим • Остатки, имеющие одинаковую функциональную нагрузку, один под другим • Одинаковые или похожие остатки один под другим
Какие бывают выравнивания? Выравнивания парные множественные глобальные локальные глобальные локальные
Зачем нужно множественное выравнивание? • Перенос аннотации • Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр фермента) • Моделирование 3D – структуры • Реконструкция эволюционной истории последовательности (филогения) • Выявление паттерна функциональных семейств и сигналов в ДНК • Построение доменных профайлов • Аккуратный дизайн праймеров для PCR анализа
Как выбрать последовательности для множественного выравнивания? • Выравнивайте белки, а не ДНК, если есть выбор • Последовательностей лучше много, но не слишком (~ 10-15) • В выборке лучше избегать: • слишком похожих последовательностей (>90% id) • слишком разных последовательностей (<30% id c большинством) • неполных последовательностей (фрагментов) • тандемных повторов
Изучая новую последовательность • Выборка на основе BLAST • Подробно охарактеризованные последовательности - аннотация • Совсем неохарактеризованные (hypothetical proteins) – достаточный уровень разнообразия • Выравнивание по всей длине • e-value – 10 -40 – 10 -6 • Избегать partial sequences
Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): • Алгоритм ClustalW (реализации ClustalX, emmaиз EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html) • Muscle– быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html) • T-COFFEE – заметно точнее, но существенно медленнее (http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)
TCoffee • Построение множественных выравниваний • Оценка достоверности существующего выравнивания • Использование 3-D структуры при построении выравнивания • Сравнение и комбинирование выравниваний
JalView – редактирование выравниваний Другие программы для редактирования выравниваний (stand-alone): GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE Список - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl
Как “читать” множественное выравнивание? • Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями • ДНК – консервативные “островки” • Качество – score, локально важно • “consensus” – строка с символами “*”, “:”, “.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно
Если консервативны только отдельные столбцы • W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой • G,P - фланкируют бета-стренды и альфа-спирали • С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между • H,S – каталитические центры протеаз • K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов • L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия
Что такое филогенетическое дерево? • Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий. • Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств
Зачем нужны филогенетические деревья? Биологические задачи: • сравнение 3-х и болееобъектов (кто на кого более похож ....) • реконструкция эволюции • (кто от кого, как и когда произошел…)
Основные термины Узел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию. Лист(leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический общий предок. Клада (clade) - группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.
Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101:38.51018,(f53969:28.26973,((f67220:8.39851, max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,
Скобочная формула (Newick format) 5.2 7.5 5.5 7.7 6.3 3.2 6.1 B C E A 8.0 D (((C,D),E)),(A,B));только топология (((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5);длины ветвей
Как выбирать последовательности для дерева? • Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК) • Придерживайтесь небольшой выборки (< 50 последовательностей) • Избегайте: • фрагментов; • ксенологов; • рекомбинантных последовательностей; • многодоменных белков и повторов • Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)
Самое главное – хорошее выравнивание! • Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию • Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.
Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический») ... Наибольшего правдоподобия, Maximal likelihood,ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных Основные алгоритмы построения филогенетических деревьев
Как понимать расстояние между объектами? • Как время, в течение которого они эволюционировали • Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно
Метод ближайших соседей (Neighbor-joining,NJ) • Строит неукоренённое дерево • Может работать с большим количеством данных • Достаточно быстрый • Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. • Могут появиться ветви с длиной <0
Как можно нарисовать построенное дерево? Arabidopsis Arabidopsis Caenorhabditis Caenorhabditis Drosophila Drosophila Anopheles Anopheles Tenebrio Tenebrio Trout Trout Mus Mus 0.1 substitutions per site Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется.
Достоверность топологии. Bootstraps Есть множественное выравнивание и построенноепо нему дерево. Верим ли мы в топологию дерева? • Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний • случайный набор столбцов из исходного (выборка с возвращением!) • Построим N деревьев: на каждой внутренней ветви отметим долюслучаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…
MEGA: филогенетический анализ последовательностей http://www.megasoftware.net/