1 / 29

Strom, který nejlépe „vysvětlí“ alignment našich sekvencí.

Jak se pozná nejlepší strom?. Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.

baird
Download Presentation

Strom, který nejlépe „vysvětlí“ alignment našich sekvencí.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. • Prohledávání stromového prostoru– heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. • Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

  2. HEURISTICKÉ HLEDÁNÍ

  3. LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B C q q A q D p p p C q q q A C B D p p q q q B D

  4. PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říkáP(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu

  5. O PATRO VÝŠ SLYŠÍTE ZVUKY… • Co to ____ může být? • Kamarád povídá:„Máš na půdě skřítky a hrajou tam kuželky“. • Vy na to:„Skřítci jsou jen v pohádkách“. • On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. • Vy: „Monent, skočím si pro kalkulačku“

  6. PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např.0,000001 x 1,0 = 0,000001

  7. JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihoodP(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|Hpavouci) << P(Hluky|Hkuny) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

  8. JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB

  9. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t)

  10. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t)

  11. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(C|T,t)…..

  12. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Jukes-Cantor Taxon A CCCTGGTaxon B ACTTGA Pii = ¼ + ¾ e-ut Pij = ¼ - ¼ e-ut Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(C|T,t)…..

  13. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: GTR Taxon A CCCTGGTaxon B ACTTGA A G ζ Vzdálenost (délka větve ) t β ε A B δ γ L = P(A|C,t) + P(C|C,t) + P(C|T,t)….. C T α

  14. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: GTR Taxon A CCCTGGTaxon B ACTTGA P(A|C,t)= eδt P(C|C,t)= e-(ε+α+δ)t P(C|T,t)= eαt Vzdálenost (délka větve ) t A B L = P(A|C,t) aP(C|C,t) a P(C|T,t)…..

  15. STROMY Velmizjednodušený příklad Jen dva znaky 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1a P0->0 = 0.9 P1->0 = 0.1a P1->1 = 0.9 Jaká je pravděpodobnost následujícího scénáře se 3 druhy a 2 pozicemi alignmentu. Druh A 0 0 Druh B 1 0 Druh C 1 0

  16. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB Druh A 00 Druh B 1 0 Druh C 1 0 STROMY Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,1 0,1 0,9 nebo 1 0 0,9 0,9 0,1 0,9 0 0 Pcesta1= P0->0A aP0->1BC a P1->1B a P1->1C Pcesta1= 0,9x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A aP0->0BC a P0->1B a P0->1C Pcesta2= 0,9x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081

  17. Druh A 0 0 Druh B 1 0 Druh C 1 0 STROMY Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 00 0 00 0,9 0,1 0,1 0,9 nebo 0 1 0,9 0,9 0,9 0,1 0 0 Pcesta1= P0->0A aP0->0BC a P0->0B a P0->0C Pcesta1= 0,9x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A aP0->1BC a P1->0B a P1->0C Pcesta2= 0,9x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1xL2 =0,053217

  18. SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α

  19. SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A G A A C C G = P(m= A) x P(n= A | m= A, B1) x … + P(m= C) x P(n= A | m= C, B1) x … …44členů! B8 B3 B4 B7 o p β ε γ B6 δ B5 ζ B2 B1 n m C T α πA πC πGπT P(A|C,B1)= eδt

  20. ROZDÍLY OPROTI PARSIMONII • V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech.V likelihoodu musíme uvažovat všechny možnosti • Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci • Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné

  21. HEURISTICKÉ HLEDÁNÍ

  22. LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001

  23. BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H

  24. MARCOV CHAIN MONTE CARLO Rovnovážný stav T1 T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)

  25. POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu Rovnovážný stav T1 T2

  26. Rovnovážná distribuce hypotéz (stromů) Burn-in MARKOV CHAIN V AKCI • Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 lnL

  27. MARKOV CHAIN V AKCI • Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace 0 sakra lnL

  28. STATISTICKÁ PODPORA VĚTVENÍ

  29. POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

More Related