1 / 36

Skutečný počet substitucí na jednu pozici

SUBSTITUČNÍ SATURACE. 0,95 PROTEINY. Počet pozorovaných rozdílů. 0,75 DNA. p. Skutečný počet substitucí na jednu pozici. ODHAD POČTU SUBSTITUCÍ. Sekvence A - A A TG T A G GAATCGC. Sekvence B - A C TG A A A GAATCGC. Zjištění rozdílů ( p ). Korekce na mnohonásobné substituce.

gene
Download Presentation

Skutečný počet substitucí na jednu pozici

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SUBSTITUČNÍ SATURACE 0,95 PROTEINY Počet pozorovaných rozdílů 0,75 DNA p Skutečný počet substitucí na jednu pozici

  2. ODHAD POČTU SUBSTITUCÍ Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Zjištění rozdílů (p) Korekce na mnohonásobné substituce Beremenebonebereme v potaz různou frekvenci různých typů záměn, frekvenci nukleotidů, D = ut Sekvence A Sekvence B

  3. Jukes-Cantor Obecně použitelné odvození G C T A -u u/3 u/3 u/3 A u/3 G u/3 -u u/3 C -u u/3 u/3 u/3 -u u/3 u/3 u/3 T 4/3 ut 4/3 ut JC K2P D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) D =ut = -3/4 ln(1- 4/3 p)

  4. DALŠÍ MODELY GTR General time reversible + ζ A G Rovnovážné frekvence nukleotidů πA πC πGπT Parametry: frekvence(rychlost) záměn (αβγδεζ) a frekvencenukleotidů (πA πC πGπT) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (přednáška 4. 4.). β ε δ γ C T α P(t)=eQt, celková rychlost=1 pak D=t

  5. PROTEINOVÉ MODELY Poissonův model: D = -19/20 ln(1- 20/19 p) p-procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)

  6. PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M10(PAM10) P=eD Px=exD Q = lnP

  7. PROTEINOVÉ MODELY Novější substituční matice (Q) odvozené ze skutečných proteinů • LG (LG-F) • WAG (WAG-F) • JTT (JTT-F) • mtREV (mtREV-F)

  8. ODKUD SE BEROU RELATIVNÍ RYCHLOSTI SUBSTITUCÍ DNA– z počtu pozorovaných záměn v našich sekvencích Proteiny– z velkých empirických souborů sekvecí Sekvence A Sekvence B Proč se to dělá pokaždé jinak?

  9. FYLOGENETICKÉ STROMY

  10. Anatomie stromu Vnitřní větev Terminální větev Vnitřní uzel (poslední společný předek) Vrcholový uzel (současnost) A B C D E F

  11. Zakořeněný a nezakořeněný F A E D B C A B C D E F

  12. Co chceme u stromu zjistit Co chceme u stromu zjistit? • Jaký má tvar (topologii) • Jaké má délky větví • Jak věrohodné je jeho větvení • Kde je jeho kořen A B C D E F

  13. JAK NAJÍT NEJLEPŠÍ STROM ?

  14. Jak se pozná nejlepší strom? Strom, který „nejlépe vysvětlí“ naše data. • Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). • Prohledávání stromového prostoru– heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.

  15. Vycházíme z matice distancí A-B jsou taxony nebo jiné OTU (operation taxonomic units). Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)

  16. UPGMA 1) Najdeme v tabulce nejmenší hodnotu (v tomto případě dBC) 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D(BC)A = (DAB + DAC)/2 = (0,5 + 0,45)/2 = 0,475 D(BC)D = (DBD + DCD)/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů), kde každý člen dvojice pochází z jedné ze spojovaných OTU) B C

  17. UPGMA 3) Z přepočítaných hodnot vytvoříme novou tabulku. 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D(BCD)A = (DAB + DAC + DAD)/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 B C D A

  18. UPGMA Výpočet délek větví: DBC = 0,15 DBC/2 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 DBC/2 C D(BCD)A/2 - D(BC)D/2 D(BC)D/2 D D(BCD)A/2 A

  19. UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 0,075 C D(BCD)A/2 - D(BC)D/2 D(BC)D/2 D D(BCD)A/2 A

  20. UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C D(BCD)A/2 - D(BC)D/2 0,1875 D D(BCD)A/2 A

  21. UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C 0,0625 0,1875 D 0,25 A

  22. UPGMA • Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit • Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (T), naprosto přesně platí molekulární hodiny • Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „dosubstituovaly“ stejně daleko B C D A

  23. UPGMA • Tyto předpoklady jsou však téměř vždy porušeny • Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom • Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) • LBA je jedno z největších úskalí molekulární fylogenetiky

  24. UPGMA 0,2 B 0,1 0,3 C 0,1 0,1 D 0,4 A

  25. UPGMA 0,2 0,2 B B 0,1 0,05 0,3 0,2 C D 0,1 0,13 0,1 0,25 D C 0,4 0,383 A A

  26. Nejmenší čtverce (leastsquares) 1. Známe genetickou vzdálenost pro všechny páry sekvencí. A B A C A D B C B D C D

  27. Nejmenší čtverce (leastsquares) A B 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. A C A D B C B D C D A C D B n n Q = ∑ ∑wij (Dij- dij)2 Skóre i=1j=1

  28. Nejmenší čtverce (leastsquares) 3. Vezmeme další topologii a určíme její skóre. A B A C A D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. B C B D C D B D A C n n Q = ∑ ∑wij (Dij- dij)2 Skóre i=1j=1

  29. Nejmenší čtverce (leastsquares) 0,2 1 2 0,2 B B 0,1 0,05 0,3 0,1 0,2 C D 0,13 0,1 0,25 D C 0,4 0,383 A A Q1= (0,8-0,8)2+(0,9-0,9)2+(0,6-0,6)2+(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,0 Q2= (0,8-0,763)2+(0,9-0,763)2+(0,6-0,763)2+(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,046707 Nejmenší čtvercegarantují nalezení správného stromu jsou-li dobře spočítané distance.

  30. Minimální evoluce (minimum evolution) Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Vybereme tu s nejmenším součtem. n n Q = ∑ ∑Dij i=1j=1

  31. Minimální evoluce (minimum evolution) 0,2 1 2 0,2 B B 0,1 0,05 0,3 0,1 0,2 C D 0,13 0,1 0,25 D C 0,4 0,383 A A Q1= 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q2= 0,2+0,2+0,05+0,25+0,13+0,383=1,213 n n Q = ∑ ∑Dij i=1j=1

  32. Neighbor-joining Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu.

  33. Neighbor-joining B A C D uA = 0,8/2+0,9/2+0,6/2=1,15 uB = 0,8/2+0,5/2+0,4/2=0,85 nDAB= DAB- uA – uB = 0,8-1,15-0,85=-1,2 n ui = ∑ Dij /(n-2) j: j ≠1

  34. Neighbor-joining B A X C D vB = ½ DBC+1/2(uB - uC) = ½ 0,5+1/2(0,85 – 0,95) = 0,2 B A 0,2 X BC vc = ½ DBC+1/2(uC - uB) = ½ 0,5+1/2(0,95 – 0,85) = 0,3 0,3 C D DA(BC) = (DAB + DAC - DBC)/2 = 0,6

  35. Neighbor-joining B A 0,2 0,5 X BC 0,3 0,1 C 0,1 D vA = ½ DAD+1/2(uA - uD) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 uA = 0,6/1+0,6/1=1,2 uD = 0,6/1+0,2/1=0,8 vD = ½ DAD+1/2(uD - uA) = ½ 0,6+1/2(0,8 – 1,2) = 0,1 n ui = ∑ Dij /(n-2) vX(BC) = (DA(BC) + DD(BC) - DAD)/2 = 0,1 j: j ≠1

  36. Neighbor-joining 0,2 B B A 0,1 = 0,3 0,2 0,1 C 0,1 0,5 0,3 0,1 D 0,1 C D 0,4 A Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.

More Related