1 / 34

Правдоподобие и баейсов подход – как это работает?

Правдоподобие и баейсов подход – как это работает?. Тагир Самигуллин 2 октября 2014. Модели эволюции нуклеотидных последовательностей. GTR. K2P. JC. Процесс замещения одного основания другим…. Модели семейства GTR. JC K2P K3P SYM F81 HKY85 TN93 GTR

Download Presentation

Правдоподобие и баейсов подход – как это работает?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Правдоподобие и баейсов подход – как это работает? Тагир Самигуллин 2 октября 2014

  2. Модели эволюции нуклеотидных последовательностей GTR K2P JC Процесс замещения одного основания другим…

  3. Модели семейства GTR JC K2P K3P SYMF81 HKY85 TN93 GTR Частоты оснований равны++ + + Частоты оснований не равны+ + + + Одна скорость замен+ + 2 скорости замен + + (транзиции и трансверсии) 3 скорости замен+ + (трансверсии и 2 типа транзиций) 6 скоростей замен+ + • Подразумевается, что: • Эволюция последовательностей – случайный процесс • Частоты оснований – постоянные • Замены происходят независимо друг от друга • Вероятности замен не меняются со временем (гомогенный эволюционный • процесс)

  4. Модели для аминокислотных последовательностей Матрица 20х20? => слишком много параметров для оптимизации, обычно недостаточно информации. К примеру, матрица скоростей модели GTR будет выглядеть так: Можно использовать математические модели (z.B. модель Пуассона, что эквивалентно модели JC для белков). Можно использовать модели эволюции кодонов (матрица 61х61 !!!) Чаще всего используются эмпирические матрицы

  5. Эмпирические матрицы : Дейхов (Dayhoff) Dayhoff et al. 1978: Использованы последовательности ядерных водорастворимых белков, 72 белковых семейства, 1300последовательности, 1572 замены. Поскольку сходство высоко (> 85%), сразу построено МР-дерево, реконструированы предковые последовательности, посчитаны замены: Таксон Предковая последовательность затем матрица посчитанных замен преобразована в матрицу вероятностей замен:

  6. значения умножены на 10 000 Значения в этой матрице справедливы для близкородственных белков (диагональ >> вне-диагональ) PAM1, что соответствует одной замене на 100 сайтов. Для отдаленных белков матрица преобразуется (возводится в степень): PAM10… PAM100 (D≈1) … PAM250…

  7. block 1 block 2 block 3 WWYIR CASILRKIYIYGPV GVSRLRTAYGGRKNRG WFYVR … CASILRHLYHRSPA … GVGSITKIYGGRKRNG WYYVR AAAVARHIYLRKTV GVGRLRKVHGSTKNRG WYFIR AASICRHLYIRSPA GIGSFEKIYGGRRRRG Эмпирические матрицы : другие и BLOSUM • На сегодняшний день предложены и другие матрицы, получены они • либо с использованием похожего подхода (дистанционное дерево) на бОльшем количестве данных (JTT-модель) • либо с использованием похожего подхода (ML-дерево) на еще бОльшем количестве данных (WAG-модель, mtREV-модель) • либо непосредственно из парных выравниваний (BLOSUM) BLOSUM: 2000 блоков из выравнивания 500 семействродственных белков разного уровня сходства, от 45 до 90% (серия BLOSUM45…90)

  8. Максимальное правдоподобие (maximum likelihood, ML) Правдоподобие – вероятность данных для выбранной модели Модель = деревои модель эволюции признаков Модель эволюции признаков= состав … Для модели “100% А”= 1 Правдоподобие = ? Одна последовательность, один нуклеотид А Для модели “100% С”= 0 Для модели “30% А”= 0.3 Одна последовательность, два нуклеотида Правдоподобие = ? АC Для модели “4 равновероятных нуклеотида“ : ¼ x ¼ = 1/16 Для модели “40% A, 10% C“ : 0.4 x 0.1 = 0.04

  9. Модель эволюции признаков= состав и процесс Данные: Две последовательности по одному нуклеотиду Модель: A(0.25) C(0.25) A↔C = 0.4 Правдоподобие ветви между последовательностями: 0.25 x 0.4 = 0.1 А C A C G T состав A C G T процесс A C G T Правдоподобиеветви между последовательностями : Модель: Данные: Две последовательности по 4 нуклеотида ССАT CCGT

  10. Изменение длины ветви Likelihood

  11. И, наконец, правдоподобие простейшего дерева: Данные Дерево Модель Первый столбец данных: Второй столбец данных: Третий столбец данных: Значение правдоподобия Четвертый столбец данных:

  12. Модели эволюции нуклеотидных последовательностей еще раз… GTR K2P JC Процесс замещения одного основания другим… … и нуклеотид-ный состав скорости замен вероятности замен

  13. Pr(T)Pr(D|T) Pr(T|D) = Pr(D) априорная вероятность дерева правдоподобие вероятность данных (маргинальная) апостериорная вероятность Метод Байеса (Bayesian inference) Ключевое понятие – апостериорная вероятность Pr (T,D) = Pr (D,T) Pr(T)Pr(D|T)=Pr(D)Pr(T|D) совместная вероятность топологии длины ветвей маргинальная вероятность

  14. Марковская цепь Монте-Карло (МСМС) Распределение плотности апостериорной вероятности :

  15. Марковская цепь Монте-Карло (МСМС) Начальная точка. Следущая точка выбирается случайно, переход на нее определяется следующим правилом: Если плотность её РР выше чем текущей позиции - шаг делается, если нет – делается с ненулевой вероятностью, которая пропорциональна отношению плотностей РРi+1 /РРi . Принципиально важна возможность перехода на более низкую позицию, иначе не удастся исследовать искомое распределение плотности РР!

  16. Марковская цепь Монте-Карло (МСМС) Пусть соотношение РРi+1 /РРiравно 0.8 и это число мы сравниваем со случайным числом от 0 до 1. Если это число меньше 0.8, шаг принимается. Интервал значений меньше 0.8 шире, чем больше 0.8 ! Пусть соотношение РРi+1 /РРiравно 0.5. Интервалы равны, шансы 50/50. Если РРi+1 /РРiстанет меньше 0.5, шаг будет чаще отвергаться, чем приниматься!

  17. Марковская цепь Монте-Карло (МСМС) Первый шаг : принимается с вероятностью 1

  18. Марковская цепь Монте-Карло (МСМС) Второй шаг : мог быть принят с вероятностью 0.144

  19. Марковская цепь Монте-Карло (МСМС) Третий шаг : принимается с вероятностью 0.123

  20. Марковская цепь Монте-Карло (МСМС) После 3 шагов имеем:

  21. Марковская цепь Монте-Карло (МСМС) После 10 000 шагов :

  22. Марковская цепь Монте-Карло (МСМС) Конечный результат : Чем выше плотность РР в некотором интервале, тем чаще он посещается!

  23. Марковская цепь Монте-Карло (МСМС) MCRobot Lewis, 2006

  24. Короткие ветви и байесовская филогения Байесовский метод может присвоить коротким ветвям очень высокие значения апостериорной вероятности (коротким – это от 1,3-1,4 ожидаемых замен). Для парсимонии, например, для поддержки 95% требуется минимум 3 ожидаемых замены. Количество верно разрешенных узлов для байесовского метода выше, чем для парсимонии, но и очень короткие неверные ветви получают поддержку выше, чем дает метод максимальной экономии. Эта поддержка в некоторых случаях превышает 50%, то есть в 50% консенсусном дереве могут появиться неверные короткие ветви! 100 наборов, 1000 оснований, модель К2Р Поддержка неверных узлов Количество верных узлов Alfaro et al., 2003

  25. Конвергенция МСМС …We then compare their [thirteen convergence diagnostics] performance in two simple models and conclude that all the methods can fail todetect the sorts of convergence failure they were designed to identify. Mary Kathryn Cowles and Bradley P. Carlin, 1996 How can we know that the chainwe are sampling from has converged andmixes well? The disappointing answer is thatit is impossible to knowfor certain. JOHN P. HUELSENBECK et al., 2002

  26. Конвергенция МСМС Схождение (конвергенция) Марковских цепей очень важно для получения корректного результата. Однако, даже отсутствие видимых проблем с конвергенцией не гарантирует, что цепи сошлись, и это главный недостаток метода. Главное преимущество – в разумные сроки можно получить результат в виде топологии с поддержкой ветвей! Nylander et al., 2008

  27. Интерпретация бутстрепа Высокие значения бутстрепа (>85%) часто интерпретируют как высокую достоверность узла, что не совсем верно даже несмотря на статистическую природу бутстрепа. Строго говоря, бутстреп показывает, достаточно ли данных для поддержки узла, нет ли конфликта в данных. Даже полностью неверное дерево может иметь максимальную поддержку узлов! Значения бутстреп-поддержки некоторой группы зависят в первую очередь от количества признаков, поддерживающих группу, и уровня поддержки альтернативной группировки. Если трактовать бутстреп как показатель уровня достоверности, то BP 97% означает, что из неверных ветвей только 3% будут иметь такую же высокую поддержку.

  28. “Essentially, all models are wrong, but some are useful.”George Box y=ax6+bx5+cx4+dx3+ex2+fx+g y=ax+b “With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.”John von Neumann ? <=тенденция или все-нюансность=> Очевидно, что более сложные модели лучше вписывются в данные и более правдоподобны. Однако усложнение модели должно быть оправдано соответствующим повышением правдоподобия, в противном случае выбирается более простая модель.

  29. Критерии для выбора модели AIC=Akaike Information criterion AIC = -2 lnL +2k, где k = число параметров модели преимущество приΔAIC> 10сильное > 4 слабое < 2 никакое AICс=AIC с поправкой на малые наборы данных (n/k<40) n = длина выравнивания BIC=Bayesian Information criterion BIC = -2 lnL +kln(n) Модель с меньшим BICпредпочтительнее Bayes factor, преимущество: 3 -20 = есть 20-150 = сильное 150+ = очень сильное DT (Decision Theory)

  30. Сравнение топологий Если топология дерева не совпадает с имеющейся гипотезой, значит ли это, что данные отвергают гипотезу? AU (Approximately Unbiased) test даст ответ CONSEL, PAUP, …?

  31. 6 seq 1 seq2 seq 3 seq 4 seq 5 seq 6 seq 7 3 7 2 А 2 7 Т Т 3 А А С С 6 С Т Критерии: экономия (parsimony) Принцип: В случае конфликта данных (наличие гомоплазий) выбирается гипотеза, которая поддерживается бОльшим количеством синапоморфий. Следствие: Это приводит к уменьшению количества гомоплазий. Практический вывод: наилучшая реконструкция филогении (филогенетическое древо) — та, которая объясняет наблюдаемые состояния признаков наименьшим числом замен. Дерево, для которого число замен является наименьшим, называют максимально экономным (МР tree). Поиск такой топологии идет эвристическим путем. Словарик: Синапоморфия – мутация, унаследованная потомками от предкового таксона Аутапоморфия – мутация, характерная для таксона Гомоплазия – независимое появление одной и той же мутации у разных таксонов Симплезиоморфия – унаследованное потомками от предка «древнее» состояние признака

  32. информативный неинформативный T T G A Т G T A А T T A A G A G seq2 seq3 seq4 seq1 постоянный seq2 seq2 seq3 seq4 seq1 seq4 seq1 seq3 seq2 seq4 seq3 seq1 дерево 2.1 дерево 2.1 и дерево 2.2 требуют одинакового числа замен дерево 1.1 дерево 1.2 дерево 2.2 О признаках в методе МР • Признаки: • постоянные (инвариабельные) • изменчивые (вариабельные). • Последние делятся на информативные и неинформативные. seq 1 seq2 seq 3 seq 4 seq 5 seq 6 seq 7 требует меньшего числа замен, т. е. более экономно, чем дерево 1.2 Информативные признаки позволяют предпочесть одну топологию дерева другой.

  33. Оценка длины дерева 3 Алгоритм Санкова 2 Позволяет придать разным заменам разный вес: Tv :Ts = 4 : 1 1 {GA} 1 {С} 1 {A} С С G A A A Алгоритм Фитча Топология оптимальна? Для первой клетки:[1;12;2;12] + [8;4;9;6] = 5

  34. Напоследок омаксимальной экономии: • Метод максимальной экономии – реализация кладистического подхода в филогенетике. Используя эвристический алгоритм реконструкции, метод отбирает топологии, для которых количество синапоморфий максимально, такие топологии требуют минимального количества замен (принцип экономии). Количество равнооптимальных топологий может быть довольно большим. • Основные недостатки метода : • часть информации не используется (как неинформативные признаки) • не может использовать различные модели эволюции последовательностей • не учитывает возможности повторных замен • не учитывает гетерогенности скоростей накопления замен, предполагает равномерность • Лучше всего использовать в случаях, когда дивергенция последовательностей невелика.

More Related