1 / 19

helene.chiapello@jouyra.fr

Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles. UBLO. helene.chiapello@jouy.inra.fr. http://genome.jouy.inra.fr/mosaic. Le projet MOSAIC.

dorcas
Download Presentation

helene.chiapello@jouyra.fr

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comparaison de génomes bactériens :questions méthodologiques autour de la définition du squelette et des boucles UBLO helene.chiapello@jouy.inra.fr

  2. http://genome.jouy.inra.fr/mosaic Le projet MOSAIC • But: déterminer systématiquement la structure squelette-boucles des génomes bactériens à l’échelle intra-espèce • Méthode: alignement de génomes complets (MGA) + post-traitement • MOSAIC* version 3: • 87 comparaisons, 24 espèces bactériennes • Comparaison aux annotations (GenomeReview+autres) • Visualisation graphique (MuGeN) *Chiapello et al. BMC Bioinformatics, 2005

  3. Les comparaisons MOSAIC Les trois étapes: 1. Sélection des génomes à comparer: • Même espèce (nomenclature), pas de réarrangement 2. Alignement global multiple des génomes avec MGA* • les paramètres MGA sont définis à partir d’un alignement de référence vérifié manuellement 3. Définition du squelette et des boucles • Squelette : régions conservées • Boucles : régions variables ou spécifique à une souche * Multiple Genome Aligner , Höhl, Kurtz and Ohlebusch, Bioinformatics 2002

  4. MOSAIC : en cours… Axe 1: Stratégie de comparaison I. Evaluation de la divergence des génomes II. Evaluation de la robustesse des boucles III. Détection des réarrangements Axe 2: Analyse des boucles Annotation et classification des boucles Axe 3: Propriétés du squelette Prédictions de motifs nucléiques basées sur la séquence du squelette

  5. I. Evaluation de la divergence des génomes Motivation : • La classification des espèces bactériennes n’est pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère d’hybridation ADN-ADN,…) Exemples : groupe Shigella-Coli, groupe B. cereus,… • il serait utile de disposer d’un critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes Idée : Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence

  6. L’indice de couverture des MUM • Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences d’une taille minimale k présente une fois sur chaque génome) pour évaluer la similarité • L’indice MUM coverage (MC) : with • Propriétés: • mesure la dissimilarité entre 2 génomes • tient compte des inversions (MUMs détectés sur le brin RC) • très rapide à calculer en utilisant des structures de type arbre de suffixes

  7. Choix de la taille minimum des MUM k Conclusion: La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).

  8. Validité de l’indice MC • L’ANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes (Konstantidinis, PNAS 2005) • For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001) Current Species Cutoff • ANI ~94% correspond à MC ~0.5 et au seuil de définition de l’espèce • Les données de MLST (Multi Locus Sequence Type) des groupesE. coli/Shigella (Pupo, PNAS 2000)et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC.

  9. Evaluation de la diversité intra-espèce avec MC Distribution des valeurs de MC parmi 7 espèces bactériennes : Conclusion: - très grande diversité à l’échelle intra-espèce - certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces

  10. II. MOSAIC: évaluation de la robustesse des boucles • Observation 1: le nombre de boucles est très variable selon l’espèce bactérienne Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus • Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé Ex: la moitié des boucles d’E. coli sont inférieures à 100 nt • Question : est-il possible d’évaluer la robustesse • des petites boucles ? • des frontières squelette/boucles ?

  11. Stratégie But : évaluer la robustesse locale des boucles Méthode : 1. Perturbations aléatoires des génomes 2. Analyse de l’impact des perturbations sur la segmentation squelette/boucles initiale Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements *Maximal Exact Matches

  12. Protocole de perturbation • Trois opérations de perturbation sont effectuées N fois sur chaque génome : 1. La suppression d’un pourcentage x de MEMs 2. L’inversion d’un pourcentage x de MEMs 3. La translocation d’un pourcentage x MEMs • Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores : - Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle - Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.

  13. Résultats : scores de nucléotide Données : 617 boucles de E. coli K12 (541 kb) • Les boucles sont en général robustes : Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs) • Les frontières de boucles sont les plus affectées par les perturbations : score 1 score [0.95;1[ score [0.90;0.95[ score [0.80;0.90[ score < 0.80 Position dans la boucle (en % de la taille de la boucle)

  14. Résultats: scores de boucles Données : 617 boucles de E. coli K12 (541 kb) • Peu de boucles sont affectées par les perturbations : 5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs) • Les boucles peu robustes sont en général petites (88% ont une longueur<200nt): Taille des boucles

  15. 15% de MEMs supprimés 15 % de MEMs inversés 15% de MEMs transloqués Exemple de visualisation Annotations biologiques Structure mosaïque score = 1 score = 0.5 score = 0

  16. III. Traitement des génomes réarrangés Principe : 1. Alignement multiples et doubles avec MAUVE* • Choix des paramètres d’alignement • Choix d’un génome de référence • Définition des LCBs : Locally Colinear Blocks 2. Définition du squelette et des boucles à partir des LCBs 3. Alignements MGA des génomes sans réarrangement * Darling et al., Genome Research 2004

  17. MOSAIC release 4 (en cours) Données = Genome Review release 56 (07/2006) : • 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes) • 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA • nouvelle interface de navigation (LCB)

  18. Retour aux questions méthodologiques • Choix des paramètres d’alignement (en fonction de la divergence des génomes ?) • Evaluation de la qualité d’un résultat d’alignement de génomes (alignements de références ?) • Problème des séquences répétées (filtrage ?) • Taille minimale d’un réarrangement (inversion, translocation)

  19. M.-A. PetitD. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes UBLO H. Chiapello S. Schbath A. Gendrault-Jacquemard Mathématique Informatique et Génome

More Related