550 likes | 784 Views
Podobnosť fylogenetických stromov. Jana Lukešová. O čom to bude. fylogenetické stromy metódy fylogenetickej analýzy tvorba fylogenetických stromov porovnávanie fylogenetických stromov. Základné pojmy. Fylogenéza vývoj druhov v evolučnom procese (vzťahy) Fylogenetická analýza
E N D
Podobnosť fylogenetických stromov Jana Lukešová
O čom to bude • fylogenetické stromy • metódy fylogenetickej analýzy • tvorba fylogenetických stromov • porovnávanie fylogenetických stromov
Základné pojmy • Fylogenéza • vývoj druhov v evolučnom procese (vzťahy) • Fylogenetická analýza • hľadá vzťahy medzi sekvenciami génov, proteínov • Fylogenetický strom • zobrazuje výsledky fylogenetickej analýzy, možný priebeh evolúcie
Z biológie • Proteín (bielkovina) • organická zlúčenina zložená z aminokyselín • Gén • pomenovaný úsek DNA so špecifickou funkciou • kóduje bielkovinu • Genóm • kompletná genetická informácia
Evolúcia • Gény • polymorfné -> alely • frekvencia génu/alely • mení sa v priebehu evolúcie v dôsledku prirodzeného výberu • Mutácie • pozitívne / negatívne / neutrálne • somatické / zárodočné
Fylogenetickéstromy • oblasť analýzy Systému • popisuje vzťahy medzi taxónmi (systematická jednotka) • najlepší prostriedok na vizuálnu reprezentáciu evolučných vzťahov medzi organizmami
Fylogenetické stromy-pojmy • Vetva - vzťah medzi taxónmi (predok-potomok) • Dĺžka vetvy – počet zmien v rámci danej vetvy • Uzol – vyhynutý alebo žijúci druh • Clade (klád) – skupina dvoch alebo viac taxónov / sekvencií proteínov / sekvencií DNA • Vzdialenosť – počet zmien medzi organizmami / sekvenciami • Topológia – usporiadanie vetiev
Fylogenetické stromy - typy • škálované • počet evolučných zmien, čas (molekulárne hodiny)
Fylogenetické stromy - typy • neškálované • nezohľadňujú počet evolučných zmien, udávajú len “dátum“, kedy vznikla daná vetva / taxón
Fylogenetické stromy - typy • bez roota
Fylogenetická analýza • Genómy sa menili mutáciami. • Počet zmien nukleotidov medzi genómami rôznych organizmov môže udávať vývoj rozdielov v čase. (timing of genome divergence) • Porovnávaním rôznych genómov môžeme odhaliť evolučné vzťahy.
Fylogenetická analýza - predpoklady • Sekvencie • neobsahujú chyby • pochádzajú od známeho zdroja • sú homologické (spoločný predok, rôzna funkcia) • každá sekvencia má spoločnú fylogentickú históriu s ostatnými
Hypotéza molekulárnych hodín • zmeny v sekvenciách sa objavujú v pravidelných intervaloch • intervaly sú u rôznych druhov a génov rozdielne • kalibrujú sa pomocou fosílií, aby sa určila doba vzniku kládu
Fylogenetická analýza - metódy • Maximálna parsimónia • strom s najmenším možným počtom evolučných zmien • Metódy založené na vzdialenostiach • Bayesovský prístup • Metóda maximálnej pravdepodobnosti (Maximum likelihood) • najpravdepopodobnejší priebeh evolúcie
Fylogenetická analýza -kroky • Zarovnanie - Multiple Sequence Alignment (MSA) • Určiť substitučný model • Postavenie stromu • Ohodnotenie stromu
MSA – metódy výpočtu • Dynamické programovanie • Heuristiky • Iteratívne metódy • Hidden Markove modely (pravdepodobnostná metóda) • Genetické algoritmy
Maximálna parsimónia • strom s najmenším možným počtom evolučných zmien • vyžaduje MSA • vhodná pre malý počet podobných sekvencií • náročné na výpočet aj čas • software: PHYLIP, PAUP
Metóda maximálnej pravdepodobnosti (ML) • používa pravdepodobnostné metódy • skúša všetky možné stromy (topológia, dĺžka vetiev) • časovo náročná • vyžaduje substitučný model • umožňuje zohľadniť viac evolučných ukazovateľov v rodokmeňoch
Metódy založené na vzdialenostiach • používa počet zmien v každom páre sekvencií • “susedné“ sekvencie predstavujú najmenší počet zmien • Metódy • Fitch and Margoliash • UPGMA (Unweighted Pair Group Method With Arithmetic Mean)
Metóda Fitch and Margoliash • Porovnáva “najbližšie“ taxóny s priemerom ostatných taxónov, potom počíta hodnoty medzi menej príbuznými taxónmi, až kým nenájde všetky vzdialenosti. • Neberie v úvahu molekulárne hodiny, výsledkom sú rôzne dĺžky vetiev.
Konštrukcia stromu(1) • Nakreslíme tri možné usporiadania nezakoreneného stromu
Konštrukcia stromu(2) • Na základe najmenej vzdialených sekvencií v tabuľke vyberieme najpravdepodob-nejšie usporiadanie stromu
Konštrukcia stromu(3) • Označíme vetvy stromu
Konštrukcia stromu(4) – výpočet vzdialeností • d(O,P)= o + p = 12 • d(O,avgMN)= o + [q + (m + n)/2] = 27.5 • d(P,avgMN)= p + [q + (m + n)/2] = 29.5 • odpočítame d(O,avgMN) od d(P,avgMN):
Konštrukcia stromu(4) – výpočet vzdialeností • {p + [q + (m + n)/2]} -{o + [q + (m + n)/2]} = 29.5 -27.5 p -o = 29.5 -27.5 = 2 p = o + 2 • d(O,P)= o + p = 12 o + (o + 2) = 12 2o = 10 o = 5 • Teda máme o = 5, p = o+2 = 7 • To isté pre M a N, dostaneme m = 6, n = 9.
Konštrukcia stromu(4) – výpočet vzdialeností • Máme o=5, p=7, m=6, n=9, chceme q. Dosadíme do jednej z rovníc: • d(P,avgMN)= p + [q + (m + n)/2] = 29.5 d(P,avgMN)= 7 + [q + 15/2] = 29.5 q + 7.5 = 22.5 q = 15
Metóda UPGMA(1) • Predpokladá, že • rýchlosť zmien je konštantná (Hypotéza molekulárnych hodín) a • vzdialenosti spĺňajú podmienku: d(x, z) ≤ max{d(x, y), d(y, z)} (silnátrojuholníkováalebo ultrametrickánerovnosť).
Metóda UPGMA(2) • o + p = 12 o = p= 12/2 = 6 • m + n = 15 m = n= 15/2 = 7.5 • Vypočítame priemernú vzdialenosť q od všetkých sekvencií: • (MO + MP + NO + NP)/4 = (26 + 28 + 29 + 31)/4 = 28.5 • q1 + 7.5 = 14.25 q1 = 6.75 • q2 + 6.0 = 14.25 q2 = 8.25 • Therefore, q = q1 + q2 = 15
Ďalšie metódy tvorby stromov • Presné metódy • Vyčerpávajúce hľadanie (exhaustive search, implicit enumeration) • Branch-and-bound (ohraničovanie vetiev) • Heuristické algoritmy • Pridávanie po krokoch • Približné metódy, ktoré však nezaručujú nájdenie najkratšieho stromu • Úpravy počiatočných stromov • Výmena vetiev (branch swapping)
Vyčerpávajúce hľadanie (2) • Má zmysel cca do 11 taxónov
Branch-and-bound (ohraničovanie vetiev) • heuristickou metódou sa nájde suboptimálny strom, ktorý slúži ako východiskové kritérium • pri počte taxónov do 25
A B C Heuristické algoritmy – Pridávanie po krokoch • Najprv sa spoja tri objekty • Potom sa náhodne vyberie štvrtý a postupne sa pridáva k trom existujúcim vetvám • Jednotlivé stromy sa posudzujú podľa optimalizačného kritéria a jeden alebo viaceré najkratšie sa ponechajú do ďalšieho kola, kde sa pridáva piaty objekt, atď.
Výmena vetiev(1) • Výmena susedných objektov (nearest neighbour interchange - NNI)
Výmena vetiev(2) • Prerezávanie vetiev (podstromov) a vrúbľovanie (roubování) – subtree pruning and regrafting (SPR)
Výmena vetiev(3) • Delenie a znovuspájanie stromov – tree bisection and reconnection (TBR)
Porovnávanie fylogen. stromov – pojmy (1) • Konsenzuálny strom (consensus tree) • zobrazuje mieru zhodnosti stromov • väčšinové stromy (majority-rule) • striktné stromy (strict consensus)
Porovnávanie fylogen. stromov – pojmy (2) • Agreement subtree • podstrom rovnaký pre 2 a viac stromov • Greatest Agreement subtree (GAS) • AS s najväčším počtom listov
Porovnávanie fylogen. stromov – pojmy (3) • Triplet • podstrom o troch listoch • štruktúra zakoreneného stromu sa dá vyjadriť výčtom tripletov
Porovnávanie fylogen. stromov – pojmy (4) • Triplety – využitie • môže slúžiť ako báza na výpočet rozdielu medzi zakorenenými stromami • rozdiel štruktúry stromov je počet rozdielnych tripletov • Structural triplet difference(Tree1, Tree2) = 2
Porovnávanie fylogen. stromov – pojmy (4) • Výmena susedných objektov (nearest neighbour interchange - NNI) • používa sa pre výpočet rozdielu medzi nezakorenenými stromami, dá sa previesť na zakorenené stromy • NNI difference je minimálny počet zmien potrebných na prevedenie jedného stromu na strom druhý
Porovnávanie fylogen. stromov – pojmy (5) • Najbližší sused vetvy Dog je Bat a Cow • Najbližší sused vetvy Ant je vetva Dog a vetva predka Bat/Cow • Po 1 NNI kroku dostaneme aj strom rovnaký s Tree 2, teda • NNI difference = 1
Porovnávanie fylogen. stromov - predpoklad • Strom z neusporiadanými vetvami môže byť nakreslený s vetvami v rôznom poradí (vo fylogenetických stromoch to ale nevadí, dôležitá je štruktúra). • To je výhodné na zobrazovanie spoločných a rozdielnych častí. • Cieľom je nájsť také usporiadanie, aby taxóny dvoch stromov boli face-to-face.
Porovnávanie fylogen. stromov - metódy • Minimum Triplet Difference (MTD) • využíva Triplet difference • Maximum Branch Similarity (MBS) • All-But-n • využíva GAS
MTD(1) – vzory Tripletov • Keď ohodnotíme listy hodnotami (–,0,+) dostaneme 12 vzorov Tripletov. • Triplet difference je počet tripletov, ktoré majú rôzne tripletové vzory medzi dvomi stromami.