1 / 35

Alix Boc Université du Québec à Montréal Bif7002 – Séminaire de Bioinformatique

Détection des transferts horizontaux de gènes : modèles et algorithmes appliqués à l’évolution des espèces et des langues. Alix Boc Université du Québec à Montréal Bif7002 – Séminaire de Bioinformatique.

heller
Download Presentation

Alix Boc Université du Québec à Montréal Bif7002 – Séminaire de Bioinformatique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Détection des transferts horizontaux de gènes : modèles et algorithmes appliqués à l’évolution des espèces et des langues Alix Boc Université du Québec à Montréal Bif7002 – Séminaire de Bioinformatique BIF7002 – Séminaire de Bioinformatique Alix Boc

  2. Sommaire • Reconstruction des arbres phylogénétiques • Transferts horizontaux de gènes • Détection des transferts de gènescomplets • Détection des transferts de gènes partiels • Application en biolinguistique • Travaux futurs BIF7002 – Séminaire de Bioinformatique2 Alix Boc

  3. Inf7212 - Introduction aux systèmes informatiques Reconstruction des arbres phylogénétiques Bif7002 - Séminaire Bioinformatique Alix Boc

  4. L’arbre phylogénétique espèces Inf7212 - Introduction aux systèmes informatiques branches ancêtres virtuels racine Bif7002 - Séminaire Bioinformatique 4 Alix Boc

  5. Reconstruction d’un arbre phylogénétique • Alignement de séquences AAATGATCTGCGTCAATATTATAA GCCTGATCCTCACTACTGTCATCTTAA ATAGGGCCCGTATTTACCCTATAG AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA AACTGATCTGCTTCAATAATTTAA • ClustalW (Higgins et al., 1994) • DiAlign (Morgenstern, 1999) • …. • Distances • Maximum de parcimonie • Maximum de vraisemblance • Approche Bayesienne AAATGATCTGCGTCAATATTA---------------------TAA GCCTGATCCTCACTA------------------CTGTCATCTTAA ATA---------------------GGGCCCGTATTTACCCTATAG AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA AACTGATCTGCTTCAATAATT---------------------TAA Bif7002 - Séminaire Bioinformatique 5 Alix Boc

  6. Définitions : reconstruction d’un arbre phylogénétique • Application d’un modèle d’évolution (méthodes de distances) • Uncorrected Distances • Jukes Cantor • Tajima-Nei • Kimura 2 parameters • Tamura • Jin-Nei Gamma • …. • Application d’une méthode de reconstruction (méthodes de distances) • Neighbor Joining • ADDTREE • Unweighted Neighbor Joining • Circular order reconstruction • Weighted least-squares • BioNJ • …. Bif7002 - Séminaire Bioinformatique 6 Alix Boc

  7. Problématique Bif7002 - Séminaire de Bioinformatique 7 Alix Boc

  8. Les modèles en réseau 1 2 3 4 5 Certains mécanismes d’évolution ne peuvent être représentés que par des modèles en réseau. • Le transfert horizontal de gènes (Hallett et Lagergren, 2001, Boc et Makarenkov, 2003) • L’hybridation(Huson, 1998, Bryant et Moulton, 2004) • L’homoplasie et la convergence de gènes (Legendre et Makarenkov, 2002) • La duplication ancestrale et la perte partielle de gènes (Delwiche et Palmer, 1996) BIF7002 – Séminaire de Bioinformatique8 Alix Boc

  9. Le transfert horizontal de gène BIF7002 – Séminaire de Bioinformatique9 Alix Boc

  10. Quelques méthodes pour la detection de transferts horizontaux de gènes Hein (1993); Hein et al. (1995, 1996) Haseler et Churchill (1993) Page (1994); Page et Charleston (1998) Charleston (1998) Hallett et Lagergren (2001) Mirkin, Fenner, Galperin et Koonin (2003) V’yugin, Gelfand et Lyubetsky (2003) Boc et Makarenkov (2003); Makarenkov et al. (2006) C. Than, D. Ruths et L. Nakhleh (2008) BIF7002 – Séminaire de Bioinformatique10 Alix Boc

  11. Détection des transferts complets (Boc et al., 2010) BIF7002 – Séminaire de Bioinformatique Alix Boc

  12. Détection des transferts complets Arbre d’espèces Arbre de gène (e.g., rbcL) Données : arbres phylogénétiques d’espèces et de gène sur le même ensemble d’espèces. Trouver : nombre minimal de déplacements de sous-arbres dans l’arbre d’espèces permettant de le transformer en l’arbre de gène (=> scénario de réconciliation). Contraintes : incorporer les règles d’évolution et maintenir la complexité algorithmique polynomiale (le problème SPR, subtree pruning and regrafting, a été montré NP-complet par Hein et al., 1996). BIF7002 – Séminaire de Bioinformatique12 Alix Boc

  13. Exemples de règles d’évolution Règles d’évolution : 2 exemples Contrainte de sous-arbres Les transferts sur la même lignée sont interdits. Le transfert entre les branches (z,w) et (x,y) de l’arbre d’espèces T sera permis si et seulement si le sous-arbre regroupant les deux sous-arbres affectés, et enraciné par la branche (z,b) dans T1, est présent dans l’arbre de gène. La contrainte de sous-arbres permet de prendre en compte automatiquement toutes les règles d’évolution. Les transferts croisés sont interdits. BIF7002 – Séminaire de Bioinformatique13 Alix Boc

  14. Critères d’optimisation d(i,j) - distance entre i et j dans l’arbre d’espèces. (i,j) - distance entre i et j dans l’arbre de gène. Moindres carrés Cette dissimilarité mesure la différence topologique entre deux tables de bipartitions décrivant deux arbres. Elle est définie comme suit  : où d(a,b) est la distance de Hamming entre les vecteurs de bipartitions a et b ex: bd(T,T’)= ((2 + 1 + 2) + (2 + 1 + 1))/2 = 4.5. Dissimilarité de bipartitions La distance topologique de Robinson et Foulds (1981) entre deux arbres phylogénétiques est égale au nombre minimal d’opérations élémentaires de fusion et de séparation de noeuds nécessaires pour transformer un arbre en un autre. Ex : la distance de Robinson et Foulds entre les arbres T et T1 est égale à 2. Robinson et Foulds BIF7002 – Séminaire de Bioinformatique14 Alix Boc

  15. Algorithme BIF7002 – Séminaire de Bioinformatique Alix Boc

  16. Algorithme • Inférer les arbres d’espèces et de gène T et T’ sur le même ensemble d’espèces; • Enraciner T et T’ selon des évidences biologiques ou en utilisant un outgroup ou un midpoint; • Si (il existe des sous-arbres identiques avec au moins deux feuilles dans T et T’) alors • Réduire la taille du problème en les réduisant à une seule espèce dans T et T’; • Sélectionner le critère d’optimisation : OC = LS (moindres-carrés), RF (distance de Robinson et Foulds), QD (distance des quartets) ou BD (dissimilarité de bipartitions); • Calculer la valeur initiale de OC entre T et T’; • T0 = T; • k = 1; • Tant que (OC ≠ 0) • { • Trouver l’ensemble de tous les THG éligibles à l’étape k (noté E_THGk); • L’ensemble E_THGk contient seulement les transferts satisfaisant la contrainte de sous-arbre; • Tant que (les THG satisfaisants les conditions des Théorèmes 2 et 1 existent) • { • Si (il existe des THG appartenant à E_THGk et satisfaisant les conditions du Théorème 2) alors • Effectuer les opérations SPR correspondant à ces THG; • Si (il existe des THG appartenant à E_THGk et satisfaisant les conditions du Théorème 1) alors • Effectuer les opérations SPR correspondant à ces THG; • } • Effectuer toutes les opérations SPR correspondant aux THG satisfaisant la contrainte de sous-arbres; • Calculer la valeur de OC pour identifier la direction de chaque THG; • k = k + 1; • Décrémenter la taille du problème en réduisant en une arête tous les sous-arbres identiques dans Tk et T’; • Calculer la valeur de OC entre Tk et T’; • } • Éliminer tous les transferts inutiles; BIF7002 – Séminaire de Bioinformatique16 Alix Boc

  17. Algorithme : exemple L’exemple ci-dessous montre comment l’arbre d’espèces T et transformé en l’arbre de gène T1. 1 2 3 Scénario trouvé : 1 - transfert de A vers D 2 - transfert de E vers B 3 - transfert de C vers F • À chaque transfert est associé : • la nouvelle valeur des moindres carrés • la nouvelle distance de Robinson et Foulds • la nouvelle dissimilarité de bipartitions BIF7002 – Séminaire de Bioinformatique17 Alix Boc

  18. Validation Déterminer le pourcentage d’apparition de chaque THG pour plusieurs réplicats de l’arbre de gène. Les réplicats sont générés à partir des séquences. Le premier arbre de gène est la référence T’. NJ or PhyML HGT-Detection arbre d’espèces T La robustesse de chaque transfert est estimée par le nombre d’apparitions dans la liste de scénarios. n-1 réplicats de l’arbre de gène. n scénarios de réconciliation. BIF7002 – Séminaire de Bioinformatique18 Alix Boc

  19. Validation des transferts horizontaux • Trois stratégies possibles : • Les séquences utilisées pour construire les arbres d’espèces et de gène sont répliquées. • Seules les données de séquences utilisées pour construire l’arbre de gène sont répliquées. • Le bootstrap des transferts peut être calculé entre deux topologies d’arbres seulement. où NT et NT’ sont, respectivement, le nombre d’arbres d’espèces et de gène générés à partir des réplicats et Nij est le nombre de scénarios de coût minimal obtenus quand l’algorithme est appliqué à l’arbre d’espèces Ti et l’arbre de gène Tj’. BIF7002 – Séminaire de Bioinformatique19 Alix Boc

  20. Simulations Monte-Carlo Taux de détection en fonction du nombre de transferts. Comparaison de la stratégie basée sur BD avec LatTrans (Hallett et Lagergren, 2001). BIF7002 – Séminaire de Bioinformatique20 Alix Boc

  21. Exemple : évolution du gène rpl12e (Matte-Tailliez et al., 2002 ) BIF7002 – Séminaire de Bioinformatique21 Alix Boc

  22. Transferts horizontaux du gène rpl12e Hypothèse : des transferts du gène rpl12e seraient survenus entre les groupes des Crenarchaeota et des Thermoplasmatales (Matte-Tailliez et al., 2004). Arbre d’espèces Arbre du gène rpl12e BIF7002 – Séminaire de Bioinformatique22 Alix Boc

  23. Scénario de réconciliation retrouvé pour le gène rpl12e 74% 3 60% 2 69% 4 60% 5 1 55% BIF7002 – Séminaire de Bioinformatique23 Alix Boc

  24. Détection des transferts partiels BIF7002 – Séminaire de Bioinformatique Alix Boc

  25. Détection des transferts partiels Transfert partiel versus transfert complet Contexte d’évolution Les bactéries et les archées peuvent évoluer dans différentes conditions en s’échangeant des parties gènes, ce qui mène à la création des gènes mosaïques. Un gène mosaïque est un allèle composé de sous-séquences provenant des espèces ou des souches différentes. Généralisation : appliqué à l’échelle d’un génome, on peut estimer le taux de transferts horizontaux (complets et partiels) entre les espèces. BIF7002 – Séminaire de Bioinformatique25 Alix Boc

  26. Transfert partiel : première approche Nouvelle fonction d’optimisation qui tient compte de l’existence de plusieurs chemins et du taux de gène transféré. Formule originale : Formule modifiée : où (i,j) est la distance originale entre i et j; est la taille de l’arête k du chemin (ij);  est la fraction de gène transférée (0 ≤  ≤ 1); BIF7002 – Séminaire de Bioinformatique26 Alix Boc

  27. Transfert partiel : deuxième approche Algorithme Étape 1. Inférons un arbre phylogénétique T pour un esemble d’espèces X. Étape 2. Pour i variant de 1 à |l-w|, inférons l’arbre de gène T’ en utilisant les sous-séquences situées dans la fenêtre coulissante entre i et |i+w|. Appliquons HGT-Detection sur T et T’. Étape 3. Établissons une liste de transferts prédits. Les transferts entrelacés (Si,j+w .. Sj,j+w)seront considérés comme un unique transfert affectant les sites de i à |j+w|. Complexité BIF7002 – Séminaire de Bioinformatique27 Alix Boc

  28. Transfert partiel : simulations Monte-Carlo Taux de détection et taux de faux positifs en fonction du nombre de feuilles et du nombre de transferts horizontaux partiels. BIF7002 – Séminaire de Bioinformatique28 Alix Boc

  29. Exemple : Étude de l’évolution du gène rbcL (Delwiche et Palmer, 1996) BIF7002 – Séminaire de Bioinformatique Alix Boc

  30. Exemple : Étude de l’évolution du gène rbcL (Delwiche et Palmer 1996) Les nouveaux algorithmes ont été appliqués à l’étude de l’évolution du gène rbcL initialement décrite dans Delwiche et Palmer (1996). BIF7002 – Séminaire de Bioinformatique30 Alix Boc

  31. Résultats : étude de l’évolution du gène rbcL (Delwiche et Palmer 1996) Détection des THG partiels Détection des THG complets BIF7002 – Séminaire de Bioinformatique31 Alix Boc

  32. Conclusions BIF7002 – Séminaire de Bioinformatique Alix Boc

  33. Conclusions • Dans le cadre de cette recherche doctorale nous avons apporté plusieurs contributions importantes dont : • un algorithme efficace de détection des transferts horizontaux complets • (HGT-Detection). • une nouvelle mesure de comparaison d’arbres : la dissimilarité de bipartitions. • un processus de validation des transferts horizontaux. • deux algorithmes de détection des transferts partiels et d’indentification des gènes • mosaïques. • L’étude de l’évolution des langues IE a montré que notre méthode peut être utile dans plusieurs domaines scientifiques. • Les méthodes relatives à la détection des transferts horizontaux de gènes sont librement accessibles à l’adresse URL suivante : www.trex.uqam.ca. BIF7002 – Séminaire de Bioinformatique33 Alix Boc

  34. Travaux futurs • Détection des transferts complets • Mesure de l’impacte des artéfacts de reconstruction et d’autres évènements d’évolution sur la détection des THG. • Détection des transferts partiels • Développement d’un modèle prenant en compte la duplication ancestrale et la perte partielle de gènes. • Validation du modèle, par des simulations statistiques, de détection des transferts partiels basé sur l’optimisation par les moindres carrés. • Évolution des langues Indo-Européennes • Validation manuelle des 1484 arbres de mots. • Analyse de l’origine des langues Indo-Européennes. BIF7002 – Séminaire de Bioinformatique34 Alix Boc

  35. Références • Boc, A. et Makarenkov, V. (2003) New Efficient Algorithm for Detection of Horizontal Gene Transfer Events. In Benson G. et Page R. (Eds.). WABI 2003,Algorithms in Bioinformatics, Springer-Verlag, pp. 190-201. • Boc, A., Philippe, H. et Makarenkov, V. (2010a) Inferring and validating horizontal gene transfer events using bipartition dissimilarity. Systematic Biology, 59, 195-211. • Boc, A., A-M. Di Sciullo et V. Makarenkov. (2010b). Classification of the Indo-European languages using a phylogenetic network approach. In  H. Locarek-Junge et C. Weihs (Eds.). IFCS 2009. Studies in Classification, Data Analysis, and Knowledge Organization, Springer Berlin-Heidelberg-New York, pp. 647-655. • Delwiche, C.F. et Palmer, J. D. (1996) Rampant Horizontal Transfer and Duplication of Rubisco Genes in Eubacteria and Plastids. Mol. Biol. Evol., 13, 873-882. • Dyen, I., Kruskal, J.B. et Black, P. (1997) Comparative IE Database Collected by Isidore Dyen, http://www.ntu.edu.au/education/langs/ielex/IE-RATE1. • Gray, R.D. et Atkinson, Q.D. (2003) Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435-439. • Hallett, M., et Lagergren, J. (2001) Efficient algorithms for lateral gene transfer problems. In El-Mabrouk, N., Lengauer, T. et Sankoff, D. (Eds.), Proceedings of the fifth annual international conference on research in computational biology, ACM Press, New-York, pp. 149-156. • Levenshtein, V. I. (1966) Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady , 10, 707–710. • Makarenkov,V. (2001),T-Rex: reconstructing and visualizing phylogenetic trees and reticulation networks. Bioinformatics, 17, 664-668. • Makarenkov, V., Boc, A., Delwiche, C.F. et Philippe, H. (2006) New efficient algorithm for modeling partial and complete gene transfer scenarios. In Batagelj, V., Bock, H.-H., Ferligoj, A. et Ziberna, A. (Eds.). IFCS 2006, Series: Studies in Classification, Data Analysis, and Knowledge Organization, Springer Verlag, pp. 341-349. • Matte-Tailliez, O., Brochier,C., Forterre, P. et Philippe,H. (2002) Archaeal phylogeny based on ribosomal proteins. Mol. Biol. Evol., 19, 631-639. • Robinson, D.R. et Foulds, L.R. (1981) Comparison of phylogenetic trees. Mathematical Biosciences, 53, 131-147. • Than, C. Ruths, D. et Nakhleh, L. (2008) PhyloNet: A Software Package for Analyzing and Reconstructing Reticulate Evolutionary Relationships. BMC Bioinformatics, 9, 322. • Woese, C.R., Olsen, G., Ibba, M. et Söll,D. (2000) Aminoacyl-tRNA synthetases, the genetic code, and the evolutionary process. Microbiol. Mol. Biol. Rev., 64,202-236. BIF7002 – Séminaire de Bioinformatique35 Alix Boc

More Related