Parcimonie - PowerPoint PPT Presentation

parcimonie n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Parcimonie PowerPoint Presentation
play fullscreen
1 / 50
Parcimonie
171 Views
Download Presentation
xia
Download Presentation

Parcimonie

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Parcimonie • Généralités • Principe • Orientation de l’arbre • Caractères • Procédure • Algorithme exact • Algorithme branch and bound • Algorithme heuristique • Analyse des résultats • Retour aux caractères • Arbre consensus • Saturation robustesse • Congruence

  2. Phénétique, évolutionnisme, cladisme Convergences Homoplasies Réversions Similitudes Symplésiomorphies Homologies partagées Synapomorphies Phénétique Évolutionnisme Cladisme

  3. A et B B et C A et C A C B A B C u u v v w w x x y y z z Homologie Homologies partagées Apomorphies partagées 2 1 3 0 1 0 Phylogénie évolutive Phylogénie cladiste

  4. C A B C A B x x x y y Parcimonie 1 2 pas 3 pas

  5. w x x w v w u z z u x u v y v y A D B C A B C D y Parcimonie 2 10 pas 7 pas

  6. E D C B A B A B A A 4 C B D 5 C 4 D E E 3 1 6 C 2 6 D 1 E A 7 D B C C A A D B E B 2 5 C A A B D B C C D E E E 3 D 7 Arbre raciné ou non E ou Arbre non raciné 7 arbres racinés

  7. Raciner un arbre • Critères ontogéniques problème posé par la néoténie • Critères paléontologiques - absence de certains groupes - la parenté ne doit pas être trop éloignée • Critères chorologiques critère secondaire insuffisant seul • Critère extra groupe

  8. X A B C X A B C P’ Q’ P Q P’ Q’ P Q Extra-groupe 1 2 pas :il y a ambiguïté

  9. X Y A B C X Y A B C Q Q’ Q Q’ Q Extra-groupe 2 1 pas 2 pas

  10. X Y A B C X Y A B C R’ R R’ R R R’ Extra-groupe 3 2 pas dans chaque cas, on ne peut trancher

  11. X Y Z A B C X Y Z A B C R’ R’ R’ R R R R Extra-groupe 4 3 pas 2 pas

  12. Y Z A B C X X C A B Y Z R’ R’ R R Extra-groupe 5 Le choix des groupes externes est un à-priori. Si l’on conteste cette qualité on peut trouver un arbre plus court 1 pas 1 pas

  13. A B C A T3 C D A B T2 D B T1 T2 T3 type T1 D C Caractère (1) C1 0 pas 0 pas 0 pas constant C2 1 pas 1 pas 1 pas non info C3 1 pas 2 pas 2 pas info

  14. Réversible 0123 Ou 0 1 3 2 Caractère (2) À états multiples 0 , 1 , 2 , 3 Binaire 0 , 1 Irréversible 0123 Réversible 01 Irréversible 01 Additifs 0 3 coûte 3pas 01 coûte 1pas 02 coûte 2 pas Non additifs 0 3 coûte 1pas 01et 02 aussi

  15. 5 5 1 1 A G C T 5 5 Caractère (3) Graphe des états d’un caractère et matrice correspondante. Les transversions sont comptées 5 fois plus que les transitions.

  16. X A B C D E 1 2 3 3 1 2 9 1 9 6 7 8 4 5 X A B C D E X A B D C E 2 3 3 2 9 1 2 9 9 1 9 2 3 6 7 8 6 7 8 1 4 5 apomorphie 1 3 4 5 convergencee 9 2 réversion Modèles de Wagner, Camin-Sokal, Dollo 14 pas (Camin-Sokal) 13 pas (Wagner) 15 pas (Dollo)

  17. Une espèce éteinte: le quagga

  18. Positions informatives

  19. Zèbre pl Zèbre mt CTT TCC 1 2 3 Quagga Zèbre pl Zèbre mt CTT CTT TCC 1 2 3 Cheval TCC Quagga CTT Zèbre pl Zèbre mt CTT TCC Zèbre pl Zèbre mt 1 CTT TCC 2 3 1 Cheval 2 TCC 3 Quagga Cheval CTT TCC Quagga CTT Méthode exhaustive (1) Avec 3 espèces un seul arbre est possible. Le branchement pour la troisième espèce peut se faire sur n'importe laquelle des branches 1, 2 ou 3. 6 pas 3 pas 6 pas C'est l'arbre le plus court. On continue cependant sur les 3 arbres.

  20. Zèbre mt Zèbre mt Zèbre mt Zèbre mt Zèbre mt TCCATTC TCCATTC TCCATTC TCCATTC TCCATTC Zèbre mt TCC Zèbre pl CTT 5 6 Zèbre pl Zèbre pl Zèbre pl Zèbre pl Zèbre pl CTTATCC CTTATCC CTTATCC CTTATCC CTTATCC 3 pas 1 123 4 TCCATCC 2 Cheval 457 TCC 3 345 CTTATCC Quagga Vache Vache Vache Vache Vache Cheval Cheval Cheval Cheval Cheval CTT TCAGCTT TCAGCTT TCAGCTT TCAGCTT TCAGCTT TCCGCCT TCCGCCT TCCGCCT TCCGCCT TCCGCCT 7 1234567 Quagga Quagga Quagga Quagga Quagga CTTATCC CTTATCC CTTATCC CTTATCC CTTATCC 6 123 456 CTTATCC 6 123 TCCATCC 457 1234567 457 3 3456 7 6 1236 6 CTTATCC 45 123 CTTATCC Méthode exhaustive (2) 14 pas TCCATTT TCCATCC On peut ajouter une nouvelle espèce de 5 façons différentes. 11 pas 14 pas CTTATCC TCCATTC 9 pas TCCGCTT TCCATCT 11 pas TCCATCT

  21. Méthode exhaustive(3) Après avoir évalué tous les arbres on choisit le ou les plus courts

  22. Branch and Bound 1 Évaluation de la longueur d’un arbre au hasard. 2 L’exploration d’un chemin s’arrête dès que cette longueur est dépassée

  23. 2 1 1 2 2 1 5 4 4 3 N Tn non raciné Tn raciné x-2 nœuds x-3 segments internes x segments externes Nombre d’arbres non racinés n Tn=  (2k-5) k=3 Nombre d’arbres racinés n Tn=  (2k-3) k=3 3 3 10 2 027 025 34 459 425 20 2,21643 *1020 8 200 794 532 637 891 559 375 soit plus de 8*1021 Nombre d’Arbres Possibles

  24. C 00011 A 10000 D 01100 Algorithme de Wagner1 (Farris 1970 : methods for computing Wagner trees.Syst. Zool., 18:374-85) Règle d’agglomération: les taxons les plus éloignés sont connectés Distances 2 à 2 AB=3 BC=2 CD=4 AC=3 BD=2 AD=3 Y 00000 1 On connecte C et D (distance la pus grande) 2 Puis on ajoute A (ou B) au nœud Y AY=1/2(AC+AD-CD)=1/2(3+3-4)=1 BY=1/2(BC+BD-CD)=1/2(2+2-4)=0 3 C’est donc A que l’on ajoute en premier.

  25. BY’ = 0,5 BY’’ = 1 BY’’’ = 0,5 C 00011 B C 00011 B 01010 Y’’’ B Y 00000 Y 00000 Y’ Y’’ A 10000 A 10000 B D 01100 D 01100 Algorithme de Wagner2 Il reste à placer B sur un des 3 segments YA, YC ou YD. S’il est sur AY Y’’B=1/2(BA+1/2(BC+BD)-1/2(CA+DA))=1 S’il est sur CY Y’’’B=1/2(BC+1/2(BA+BD)-1/2(AC+DC))=0,5 S’il est sur DY Y’B=1/2(BD+YB-YD) or YB=1/2(AB+CB-AC) et YD=1/2(CD+AD-AC) Donc Y’B=1/2(BD+1/2(BA+BC)-1/2(CD+AD))= 1/2(2+1/2(3+2)-1/2(4+3)=0,5 Donc B est mis en Y’’ Y’’ 00000

  26. D 01100 C 00011 A 10000 B 01010 00000 00000 00010 01000 B 01010 A 10000 C 00011 D 01100 A 10000 C 00011 00000 00000 B 01010 D 01100 Algorithme de Wagner 3 Le résultat donne un des arbres qui n’est pas le plus court parmi les 3 arbres possibles. On peut à partir de là par branch swapping (ici NNI suffit) obtenir l’un des plus courts. 6 pas 6 pas 7 pas

  27. x x x y w y w y z w z z d c c d c d e e a a e a b b f f b f Branch swapping:réarrangement local(NNI) Exemple 2 Exemple 1 Nearest-Neighbor Interchange

  28. e d c e a c f b f a coupure b a d e d e c b f c a f b Branch swapping:réarrangement global(SPR) d Subtree Pruning Regrafting

  29. a c d c e a b b f a d coupure e e c b f d a c f f b e d Branch swapping:réarrangement global(TBR) 2 sous arbres à reconnecter de toutes les façons possibles Tree Bisection-Reconnection

  30. Exploration du paysage des arbres avec une heuristique

  31. Matrice Homoplasiques Informatifs Non informatifs

  32. 17 A 10 11 12 13 18 B homoplasie 2 3 19 20 C 1 7 D 4 5 6 8 9 E DELayed TRANsformations 14 15 16 14 15 16 14 15 16 14 15 16 Il y a convergence sur les branches de A et C pour les caractères 14 15 et 16 Dans cet exemple, l’option MINF donnerait le même résultat.

  33. 17 A 10 11 12 13 14 15 16 18 B 2 3 19 20 C 1 La réversion est préférée à la convergence pour rendre compte de l’homoplasie, elle concerne 3 caractères: 14, 15 et 16 7 D 4 5 6 8 9 E ACCelerated TRANsformation 14 15 16 réversion

  34. Exclusion et pondération 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 A G G C T G C A A T C G T G A G A C T T C C A T C G T G A C A C T G C C A * * T C G A C G C T G C G A T C G T G A C G C T T C G A T C G T G A G G C T G C A A T C G T G La pondération différente entre transitions et transversions entraîne des valeurs différentes affectées aux différents changements d’états du caractère 8. Il n’existe plus une valeur unique affectée à ce caractère.

  35. Exclusion et pondération 2 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 A G G C T G C A A G C C A G A G A C T T C C A G T C T G A C C C T G C C A G G G T G A C G C T G C G A G C G A G A C T C T T C G A G A G T G A G A C T G C A A G T C T G Régions inversées répétées

  36. Matrice de coût BEGIN ASSUMPTIONS; USERTYPE tv STEPMATRIX=4 A C G U [A] . 1 0 1 [C] 1 . 1 0 [G] 0 1 . 1 [U] 1 0 1 . ;

  37. Variabilité des nucléotides en fonction de leur position dans le codon dans le gène rbcL

  38. Ve Si A B C D A B C D Saturation 50 40 30 transversions 20 10 0 0 10 20 30 40 transitions Saturation: principe 4 8 16 6 20 28 16 41 32 27 40 42

  39. Comparaison de la vitesse d’évolution en transitions et en transversions pour la position 3 des codons du gène rbcL transitions transversions

  40. Comparaison de la vitesse d’évolution en transitions et en transversions pour les positions 1 et 2 des codons du gène rbcL transitions transversions

  41. Ancêtre commun ACGT Ancêtre commun ACGT Taxon A AGGT Taxon A AGGT Taxon B ACCT Taxon B ACCT Saturation CT GA CG GC AC TG Pas de saturation: le nombre de changements observés est égal au nombre réel. Saturation: le nombre de changements observés est inférieur au nombre réel.

  42. m s g CI, RI et RC m=Lg minimum de l’arbre s=Lg réelle de l’arbre g=Lg maximum de l’arbre

  43. Variation de l’indice de consistance en fonction du nombre de taxa Formule empirique NT: nb de taxa CI= 0,90-0,022NT+0,000213(NT)2 Sanderson, Donoghue (1989)Patterns of variation in levels in levels of homoplasy. Evolution 43 pp1781-95

  44. A A A A B B B B C C C C D D D D E E E E F F F F A A B B C C D D E E F F Consensus strict et semi strict Arbre 1 Arbre 2 Consensus strict Consensus semi strict

  45. Consensus majoritaire

  46. A B C D E F G H I A B D E C F G H I A D C B E F G H I Arbre 1 Arbre 3 Arbre 2 A C B D E F G H I A C B D E F G H I Consensus d’Adams Consensus majoritaire Consensus d’Adams

  47. A B C D E F G A B C D E F G Consensus des arbres de Lg21 pas Consensus des arbres de Lg=20 pas Indice de Bremer D=1

  48. Congruence : principe Le premier jeu de données donne des arbres parcimonieux de Lg=x Le second jeu de données donne des arbres parcimonieux de Lg=y La concaténation des 2 jeux de données donne des arbres parcimonieux de Lg=z Un test statistique permet de dire si la différence entre x+y et z est significative ou non

  49. Congruence : test ILD D=(lgx+lgy)-lgz D est-il significatif? Jeu 2 >1 ggag >2 agga >3 gagg >4 aaaa Jeu 1 >1 AAAA >2 AGGA >3 AGAG >4 AAGG Jeux 1+2 >1 AAAAggag >2 AGGAagga >3 AGAGgagg >4 AAGGaaaa 100 tirages au hasard Simulation n >1 AggAAggg >2 GagGGaaa >3 GgaGAggg >4 AaaAGaaa 100 jeux simulés Simulation n du jeu 1 >1 AggA >2 GagG >3 GgaG >4 AaaA Simulation n du jeu 2 >1 Aggg >2 Gaaa >3 Aggg >4 Gaaa Estimations de z On détermine la distribution des valeurs de D. si pb Dobs5%  Incongruence Estimations de x Estimations de y

  50. Méthodes de distance Méthodes de parcimonie Comparaison des deux méthodes de calcul d’arbre Calcul d’une distance globale Examen des caractères les uns après les autres Un seul arbre retourné par le programme La méthode peut retourner plusieurs arbres également parcimonieux Pas de test de robustesse de l’arbre unique (excepté le bootstrap) Il y a un test de robustesse des noeuds (mesure de l’homoplasie dans l’arbre par le calcul du rapport de la longueur minimale de l’arbre à sa longueur réelle. Pas de retour aux caractères pour pouvoir les reconsidérer Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations Rapide, même avec un grand nombre de taxa Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa