1 / 30

Strom, který nejlépe „vysvětlí“ alignment našich sekvencí.

Jak se pozná nejlepší strom?. Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.

havily
Download Presentation

Strom, který nejlépe „vysvětlí“ alignment našich sekvencí.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. • Prohledávání stromového prostoru– heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. • Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

  2. HEURISTICKÉ HLEDÁNÍ

  3. LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B C q q A q D p p p C q q q A C B D p p q q q B D

  4. PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říkáP(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá)

  5. O PATRO VÝŠ SLYŠÍTE ZVUKY… • Co to ____ může být? • Kamarád povídá:„Máš na půdě skřítky a hrajou tam kuželky“. • Vy na to:„Skřítci jsou jen v pohádkách“. • On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. • Vy: „Moment, skočím si pro kalkulačku“

  6. PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např.0,000001 x 1,0 = 0,000001

  7. JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihoodP(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Matematicky psáno P(Hluky|Hpavouci) << P(Hluky|Hkuny) Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

  8. JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB

  9. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t)

  10. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) xP(C|C,t)

  11. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) xP(C|C,t) x P(C|T,t)…..

  12. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Jukes-Cantor Taxon A CCCTGGTaxon B ACTTGA Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t Vzdálenost (délka větve ) t A B L = P(A|C,t) xP(C|C,t) x P(C|T,t)…..

  13. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Jukes-Cantor Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B 0 t 0 0,68

  14. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: GTR + Γ Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) xP(C|C,t) x P(C|T,t)…..

  15. KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: GTR+ Γ Taxon A CCCTGGTaxon B ACTTGA P(t)= 1/4 er1Qt+ 1/4 er2Qt + 1/4 er3Qt+ 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) xP(C|C,t) x P(C|T,t)….. Hodnotyparametrů buď spočítáme z dat (π) nebodosadíme ty, které nám maximalizují likelihood(rychlostniα,β,γ,δ,ε,ζ a αparametrfunkceΓ)

  16. STROMY Velmizjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1a P0->0 = 0.9 P1->0 = 0.1a P1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat . Druh A 0 0 Druh B 1 0 Druh C 1 0

  17. Druh A 00 Druh B 1 0 Druh C 1 0 STROMY Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,1 0,1 0,9 nebo 1 0 0,9 0,9 0,1 0,9 0 0 Pcesta1= P0->0A aP0->1BC a P1->1B a P1->1C Pcesta1= 0,9x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A aP0->0BC a P0->1B a P0->1C Pcesta2= 0,9x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081

  18. Druh A 0 0 Druh B 1 0 Druh C 1 0 STROMY Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 00 0 00 0,9 0,1 0,1 0,9 nebo 0 1 0,9 0,9 0,9 0,1 0 0 Pcesta1= P0->0A aP0->0BC a P0->0B a P0->0C Pcesta1= 0,9x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A aP0->1BC a P1->0B a P1->0C Pcesta2= 0,9x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohotostromu pro pozici 2 je Pcesta1+Pcesta2= 0,657 Likelihood tohotostromu pro cely alignment je L1x L2 = 0,053217

  19. SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α

  20. SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A G A A C C G = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … …44členů! B8 B3 B4 B7 o p β ε γ B6 δ B5 ζ B2 B1 n m C T α πA πC πGπT P(t)= eQt

  21. ROZDÍLY OPROTI PARSIMONII • V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech.V likelihoodu musíme uvažovat všechny možnosti • Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci • Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné

  22. HEURISTICKÉ HLEDÁNÍ

  23. LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001

  24. BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H

  25. MARCOV CHAIN MONTE CARLO Rovnovážný stav T1 T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)

  26. POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu Rovnovážný stav T1 T2

  27. Rovnovážná distribuce hypotéz (stromů) Burn-in MARKOV CHAIN V AKCI • Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 lnL

  28. MARKOV CHAIN V AKCI • Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace 0 sakra lnL

  29. BAYÉSKÁ METODA • Příbuzná metodě maximum likelihood. • Používá stejné substituční modely na výpočet pravděpodobností. • Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. • Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. • Počítá statistickou podporu větvení (o tom příště).

  30. MAX. LIKELIHOOD vs BAYES

More Related