1 / 25

Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires. N. Galtier CNRS UMR 5554 – Institut des Sciences de l’Evolution Université Montpellier 2 galtier@univ-montp2.fr. Modèles Markoviens et phylogénie. Processus Markoviens: généralités. - Définition :

yin
Download Presentation

Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de l’Evolution Université Montpellier 2 galtier@univ-montp2.fr

  2. Modèles Markoviens et phylogénie Processus Markoviens: généralités - Définition: Les chaînes de Markov ou processus de Markov sont des objets mathématiques destinés à décrire les variations d’un système au cours du temps, sous l’hypothèse (très faible) d’absence de mémoire: le futur du système dépend seulement de son état présent, et non pas de la trajectoire qu’il a suivie pour l’atteindre. • Quelques exemples: temps discret, états discrets: processus de branchement • temps discret, états continus: marches aléatoires • temps continu, états discrets: processus de Poisson • temps continu, états continus: mouvements browniens • En phylogénie moléculaire, les états du système sont les 4 nucléotides / 20 amino-acides / • 61 codons, et le processus est typiquement représenté par une matrice de transition en • temps continu.

  3. Modèles Markoviens et phylogénie A C G T A X a k.a a C a X a k.a k.aa X a G ak.a a X T Modèle de Kimura (nucléotides) Modèle WAG (amino-acides)

  4. Pourquoi? • parce que l'évolution est très généralement sans mémoire Pour quoi faire? - pour simuler des données - pour reconstruire des phylogénies en tenant compte du processus évolutif - pour estimer les processus et apprendre les mécanismes de l'évolution moléculaire Comment? - par l’approche statistique en phylogénie moléculaire Modèles Markoviens et phylogénie Les modèles Markoviens sont l’outil de base de la phylogénie moléculaire - parce que la théorie des chaînes de Markov est bien développée

  5. Modèles Markoviens et phylogénie L’approche statistique en phylogénie moléculaire 1- modéliser L'évolution d'une séquence est représentée par un processus de Markov courant le long d'un arbre. 2- calculer les attendus sous le modèle Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle. 3- ajuster le modèle aux données Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenir les estimateurs au maximum de vraisemblance des paramètres ou Calculer la probabilité postérieure des paramètres sachant les données et les a priori (approche bayésienne).

  6. y1: A A C A G y2: T T C T T y3: A A A A A données : Y Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire longueurs de branches: li topologie d'arbre T X0 l1 A C G T l6 X1 b b l2 A a X3 l5 X2 b a C b l7 G b b a l8 l3 l4 b T b a matrice de substitution : M

  7. y1: A A C A G y2: T T C T T y3: A A A A A données : Y Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire longueurs de branches: li topologie d'arbre T X0 l1 A C G T l6 X1 b b l2 A a X3 l5 X2 b a C b l7 G b b a l8 l3 l4 b T b a matrice de substitution : M L(li, M, T ) = Pr(Y | li, M, T ) = PPr(yi | li, M , T ) i Pr(y1 | li, M, T ) = SSSS Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1). Pr(y11=A| X2=x2). Pr(y12=A| X2=x2). x0 x1 x2 x3 Felsenstein 1981 J Mol Evol 17:368

  8. Modèles Markoviens et phylogénie Calcul des probabilités de transition Hypothèses: les sites évoluent indépendamment selon un processus Markoviencommun (i.i.d.) Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T). Dynamique instantanée: La probabilité d'être dans l'état A à l'instant t+dt est: A(t+dt) = A(t) + C(t) mCAdt + G(t) mGAdt + T(t) mTAdt - A(t) (mAC + mAG + mAT) dt (1) et de même pour les 3 autres états. Ces 4 équations différentielles s'expriment matriciellement comme: F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t Dynamique de long terme: La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2): (3) F(t+dt)=F(t)+M.F(t).dt F(t)=eM.t.F(0)  La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t: pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.

  9. Modèles Markoviens et phylogénie Usages de la fonction de vraisemblance Sachant calculer la vraisemblance, on peut: • estimer les paramètres en la maximisant (ML = Maximum Likelihood) • reconstruire les détails du processus en utilisant les vraisemblances conditionnelles • (EB = Empirical Bayesian) • tester des hypothèses en comparant des modèles (LRT = Likelihood Ratio Test) L'approche bayésienne permet de faire la même chose avec des modèles plus complexes, si l'on accepte de se donner des a priori (et d’attendre que les MCMC mélangent).

  10. Trois exemples de questions biologiques que l’on peut vouloir poser à sa molécule favorite et qui requièrent un bon usage des modèles Markoviens: - a-t-elle évolué sous l’influence de la sélection positive? (modèles codon) - a-t-telle subi des changements fonctionnels ? (modèles covarion = hétérotaches) - peut-on exhiber des effets de coévolution entre sites ? (modèles d’écart à l’indépendance)

  11. Détecter la sélection positive 2e position T C A G TTT  Phe TTC  Phe TTA  Leu TTG  Leu TCT  Ser TCC  Ser TCA  Ser TCG  Ser TAT  Tyr TAC  Tyr TAA  Stop TAG  Stop TGT  Cys TGC  Cys TGA  Stop TGG  Trp T CTT  Leu CTC  Leu CTA  Leu CTG  Leu CCT  Pro CCC  Pro CCA  Pro CCG  Pro CGT  Arg CGC  Arg CGA  Arg CGG  Arg CAT  His CAC  His CAA  Gln CAG  Gln C ATT  Ile ATC  Ile ATA  Ile ATG  Met ACT  Thr ACC  Thr ACA  Thr ACG  Thr AAT  Asn AAC  Asn AAA  Lys AAG  Lys AGT  Ser AGC  Ser AGA  Arg AGG  Arg A GTT  Val GTC  Val GTA  Val GTG  Val GCT  Ala GCC  Ala GCA  Ala GCG  Ala GAT  Asp GAC  Asp GAA  Glu GAG  Glu GGT  Gly GGC  Gly GGA  Gly GGG  Gly G

  12. Détecter la sélection positive Evolution synonyme vs. non-synonyme Un changement de nucléotide dans une région codante est dit: • synonyme s'il n'entraine pas de modification de l'acide aminé codé - non-synonyme dans le cas contraire Les changements synonymes sont neutres (en première approximation) et évoluent selon le processus mutationnel. Les changements non-synonymes sont soumis à sélection naturelle: - sous le régime (majoritaire) de la sélection purificatrice, la vitesse d'évolution non-synonyme (dN) est inférieure à la vitesse d'évolution synonyme (dS). - pour un pseudogène(cas neutre), on a dN=dS. Idée: détecter l'adaptation par la recherche de gènes pour lesquels dN>dS (e.g. Messier & Stewart 1997 Nature 385:151, Wyckoff et al. 2000 Nature 403:304)

  13. Détecter la sélection positive Le modèle codon de Goldman & Yang On définit M, la matrice de substitution 61 x 61 entre codons, par: b .pY si les 2 codons X et Y diffèrent par une transversion synonyme bw.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme mXY = a .pY si les 2 codons X et Y diffèrent par une transition synonyme a.w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme 0 si les 2 codons X et Y diffèrent par plus d'une base Le paramètre d'intérêt w peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. w<1: sélection purificatrice ; w =1: évolution neutre ; w >1: sélection positive Goldman & Yang 1994 Mol Biol Evol 11:725

  14. Détecter la sélection positive Exemple de l’adaptation à l’herbivorie chez les Colobinés Lysozyme: Modèle 1 : w0 = wC ln(L)= -1043.84 w0 = wC = 0.574 Modèle 2 : w0wC ln(L)= -1037.04 w0 = 0.389 ; wC = 3.383 Modèle 3 : w0 (wC = 1) ln(L)= -1042.58 w0 = 0.488 (Yang 1998 Mol Biol Evol 15:568)

  15. Fonction n p-val Tissue n p-val <10-10 <10-3 417 247 Immunité Testicules 51 66 Gametogenèse <10-3 Thyroïde <5% 40 405 Inhibition apoptose Sang <10-2 NS 133 133 Perception sensorielle Cerveau <5% NS Détecter la sélection positive Une approche génomique chez l’homme Nielsen et al (2005 PLoS 3:170) analysent 13731 gènes chez l'homme et le chimpanzé calculent le dN/dS pour chaque paire, et comparent différents facteurs. Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire, la perception/communication, et la compétition spermatique/conflit génomique.

  16. mutation favorable sites hétérotaches fonction 1 fonction 2 Changements fonctionnels et hétérotachie Adaptation moléculaire et changements de vitesse sites-spécifiques

  17. Changements fonctionnels et hétérotachie Vitesse d’évolution constante entre sites Vitesse d’évolution variable entre sites Variation de vitesse site-spécifique = HETEROTACHIE

  18. Changements fonctionnels et hétérotachie a. Vitesse constante entre sites b. Vitesse variable entre sites M M.r1 M.r2 M.r3 c. Variation de vitesse site-spécifique = covarions = hétérotachie n n n n M.r1 n n n n n n n n M.r2 n n n n n n n n M.r3 n n n n Galtier (2001) Mol. Biol. Evol. 18:866

  19. r > 1 r = 1 r < 1 M0 (pas d’hétérotachie) M1 (hétérotachie) r2> r1 r1 > r2 Changements fonctionnels et hétérotachie Un test de rapport de vraisemblance pour déteter l’hétérotachie LR = 2 . [ln(L1) – ln(L0)] ~ c2 (1 ddl)

  20. a b c d e f g S TMF S LP S TMF S LP S TMFIFP S TMFTFP S TMFYFM S TMFHFH S TMFHFT S TMFYFP S TMFLFP S TMFF F F S TMFHFT S TMFYFA S TMFPFP S TMFPFP S TMFPHL S TMFPFP S TMFLHT S TMFWVF S TMFFTP S TMFTVF S TMFLFL A AMVLFI ATMILFIAT N ALFI AIV S LFI S VMFLFITTVILFI FT TLLFI S TMFW S I S TM MW S T S TMFM N Q S TMFPHY S TMFPHP P R I M A T E S Pupko & Galtier (2002) Proc Roy Soc London B 269:1313

  21. Ecarts à l’indépendance des sites = coévolution Les modèles standard font l’hypothèse d’indépendance entre sites - cela parait naïf vue l’importance des interactions entre résidus dans les macromolécules • ceci dit, autant la coévolution est flagrante au sein des ARN, autant elle est peu visible • entre amino-acides • d’où le double intérêt à l’étude de la coévolution moléculaire: • - identifier les contraintes ayant influencé l’évolution de ma molécule favorite • - comprendre le vide bibliographique associé aux protéines: • mauvaises méthodes? données inappropriées? signal réellement faible?

  22. Ecarts à l’indépendance des sites = coévolution On peut modéliser la coévolution • Tillier & Collins 1998 Genetics 148:1993, Pollock et al 1999 J Mol Biol 287:187 • proposent des modèles sur les paires d’états: AC AG AT CA … AA AA AG AT CA . . . - Mais ces modèles sont difficiles à utiliser, et peu généralisables

  23. A C A G T T C . . . A G A G C T A . . . A G A G C T A . . . T C A G T T C . . . T C G G T T T . . . Ecarts à l’indépendance des sites = coévolution Une approche par cartographie des substitutions . . . cartographie probabiliste . . . "clustering des mappings" tests de significativité

  24. Escherichia coli D U18997 C C G A C G A U G C G U U G G C U A A G U A G G G A A U U C G G C G A C G C C U A U G G A G4 G C A A U A G C U A G C U A A C G G G C A C G A A C G U U G C G A U G U G U A G U A U U A A U G U A G G A A G C C U A U C C G U A C C G U A C C G G C U G U G U G G U U G5 G C G G A U A G C G U U A G11 A A C G A A E14 U U G A C G U U U A A U U A C G A U C G U U U A U A U A G A U C C G E25 C C A C A A C G G A A G A G U A C G G U G G G A A U A U A U G C G U U G G C U G U C G A U G G U C A A A U A E23 U C U G12 C C G C G G A U A G C U A G C G G G C G U G G U G G A G A A G G C C A U C A A C C U G C G C A A U A U G U G G A A C C G G U G G U G A G C A C G C G A C G U C G G10 G A C A U U G A E26 U G U A A G E15 G7 U G C A A U A U C A C G G A A U U A U G6 U U A A A G G C A A U U G G C A C A A G A G C U G3 U G G U G A U U U G U G G G C U G C G U A C G G G G C A G13 C C A A U U C C G C C G G U G U C G U G E13 G C G G G9 C A C C G A C G C G C U G G A U C G G C C A G C G G G A G G C A A C G A A G U G C G C C G G G G C U C C G E22 G U G C G U G C U U G U G G A G U C A G C G G C A G G U C A G G C C U C A G A A U C U A A C C A C G U G A A A A C A U A C G G A C G C C G U A U U U G C U U A D18 D19 U E24 G C G C G U A C G U A A G14 G G A A G G U A G A U U U U G U E27 A G G C G G A A U G A A G A G C U C U C U G G8 U A C A A A G A G A U A U A G A U U C C U U A U G A G U A G U A C A A A A A A U A G U C C A G C C A U C A U G A G C C U A A A U G A A U U A A G C G A U C C G C U G U A C C G C U C G G A G C G G U U G U A A G U G C G U C C G A C G C A U G U A U G A A U A A U G G A U U U G G C U G C G G C A A E21 G G G A C U A U C G C C G A C U U C U A A A C U A G C U A U C G2 C G U G15 U A A U U G C E20 G G A G C G C U A G A G E28 A C C C C G G G C G U A G U A A A U A A G A A U G C C G A U G C G C G U C G A C C G A G G U G U G C E12 G C C C G G A G A U C C G C G C G A G U A G G U A U A A A U A G A A C A A A C G C G C C C A G A G U A A C A C G G U G G G U G G C A A U G C G C U A U A C C G C C G A G E19 A C G A U C A C A G C G G G A C C G G U G U G C G G G C G U A A A G G G C U U A U G G A C G C C G16 A U A U G G C G U A C A A G C U A C G U G C A A A U G A G G C E18 U A G G C G C G C A G C G U C U G C U E17 C G A A C G U G C U A A C E16 G A G A G C G A A A A A C G G G U A U A A G C G A A A A F1 G G U C G A U A U G A G G A A G C U U A C C A G U C C A G C A C C A U A G A A C A U A A A G C U G G G A A G U G G G A U G17 D17 E3 G C G U G G U E11 G G C U G U G C A U U G A G C A U U A A U A C G A C A C U C U U G A C C C A A C U G G U C G G G U A G U C U G C C U G G E5 G G U G G G C G C G G U A A U A G A C C A G C U A C C C G C C G G C E1 C G C A C G G A A C G G1 G G C G G A G A C U A G G U A A G E4 G C C U E10 E7 C C G U U A C U G G U A U C C G18 U U A G A U C G C A U A C U U A C U G A A A U U G A A C U C G C A U A A U A G C U A C A U A U G G G A G A G20 C G G U C G G G C A C C C U G U U U C C A U A G G G C G C C C A G G G G G U A A G G A C A A G C U G C U U A A G G G U A U G E2 A U C U A G A U G A U A A A A G C G G U C C A A A G C U C C A C G G C G A U U A G U G A A U A G A A A G C G C G C E6 U A U U C C C U G G G G G U G19 C G A A A G U A C U C G U C U C G A A C G C U G C G U A E8 U U C C G A G C D20 G A U G A G U G C G G C A A C G U A U U C G U A A H2 A A C G C C G C G G U U G G G U G C G U A G E9 G G U U G H1 D16 C C C G U U U G C G A U C C A G C H3 G G A U C G U G C G G U G G A A C U G C U C A G C C U A G A G A A G A G A C G C A U C G G G U U G C A U C G G A G U G G A G A A C U G G G G C C A A A G C C G A U A A C G G G C C G A G G C U A G C C G U A A C C C U G C C U C U U G A C C C G G G C A G U C G G G A G A A A U G C A U G U A U C G U A G A A G C G G D22 U U A D15 A C G G C G A G U U A A G A C C C U A C H1_1 A U G U C C G U C G U G A A U A U C U G G G A A A A U A U U G G G G G C A U U C C G C G A A G C C G A C H4 U A C A U G D11 D21 A C G G C C G A G G C G U A U A G G C A G C G A A A U A G U A U G A C A G G C G G C A G A C C G G C C A G G U G U G C G U A U D1 I2 C C G C C A A U A C A A U A G D12 U A G C U C A U A U U G C G U A C A U G C U C G G U A U G C A U D13 A U G A U G C G A C U G A G U A G U A G U G C A G U G G A A U A A G U A C A U C C A I1 G G G A U G U G U U A G G C C G G G U G C G C A C C A G G U A U U A A C C G G A U C U G G C C C G U G C G U A A C G D6 G A A A U A A G U A U D10 G G A U A U G C A A A U A A U C C G A A A I3 U C G C G C A C U A A C C C G A G G A U A C G G U G G C C U A U G G U A G A U D2 G A G G G C C G U G G G U G A A A U G G U G U A U C C G A C A A U G A U G D14 A G U A G G C U C A U D7 C C U G G U U A A A C G G C A G G A G D3 U U U G G C A U U A U U U U U G C U G G A A G G U A A C C A A G C A1 G G G C C U U A G G C G C C A U G C G G U C G U U C G U C C G G A U C A A A A G A G A C G U A U o A A C U C A G A U U A U A G U U C B6 C U A G U A D5 G U G C G G C G G A G G G G U G A G G G D4 G C A A C A A G D9 C G G G C G G o C U G G C A G G A A A G C U G C C G A A C C G U G U A U A U G U C A C C U U A A A A C G C C U G C U U A A A C G U C U U C U C A A U A U G A G G C G G A C1 G A A U A U A G U G A G B8 A U A G A C A A U G G G A B1 U A A U U A C A C C U A C A G G G U C A C U A C U G U G A U G C U C U A G A A G G U C A G U G G A U B7 A C D8 C C A A G C U G G G A C G U G C A A G G A A A G U G U C G U C A C A G U A A C A A U C G A A A G A U A U A A A C U C G A G G B5 B4 U G C C A G U G U U U C G U U C C A U G A C G G A U G U A G G A C C G G C A A A B9 C U G U U A G C U G A U A B21 G A U A G A C G G U A C A U G G A A U G C A A C G G G A A B2 G A C A G C G C G C G C C G A G G B3 C A C G A A U B10 A A C A G G C A G U C A G A G G G U A C C G G A A G G C C G U C A G U C U C G G G G A G A C U A G G C C C C G C C A C C C C A A U U G U A A A A B20 U U A A U A G G G U A A G A U A C G G C A C A A B19 A G C A A G U U B13 G A G C C A G C A G U A G A U A G A C C A U G A U G C C U A A G A G C B18 A C A G C C U G G A B11 G G C U C C U G U C U C G C C U C A G G C G G G G G A A C C A A G U A A U G G A A C G G B12 U A C G G C G A G A U G G C G C G C B14 C A U G G U A A U G C U A C G G U U G U A C G A U B15 C G G U U G A U A A U A A A C G A U B17 A C G B16 G U A G G A C A C C U G C G C G U C C G A G G G A C G C G G G U A A A G C C A G U A Ecarts à l’indépendance des sites = coévolution P formyl-transferase ARN ribosomique 16S Dutheil et al 2005 Mol Biol Evol 22:1919

  25. Modèles Markoviens et phylogénie: perspectives Il existe d'autres modèles, d'autres applications: horloge moléculaire relâchée et datations (Thorne & Kishino 2002 Syst. Biol. 51:689) reconstruction de séquences ancestrales (Zhang 2006 Nat Genet 38:819) variations de processus entre sites (Lartillot & Philippe 2004 Mol Biol Evol 21:1095) variations temporelles du régime sélectif d'un site (Guindon et al 2004 PNAS 101:12957) prise en compte des contraintes structurales (Kleinman et al 2006 BMC Bioinform 7:326) … Passage à l'échelle génomique?

More Related