1 / 26

Annotation de séquences génomiques: gènes

Annotation de séquences génomiques: gènes. Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs. Annotation des séquences génomiques. Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2 principales questions :

neo
Download Presentation

Annotation de séquences génomiques: gènes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Annotation de séquences génomiques: gènes Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs

  2. Annotation des séquences génomiques Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2 principales questions : 1) Où sont les gènes et comment sont-ils distribués ?  Distinguer gènes et éléments transposables  Annotation structurale 2) Quelle est la fonction de ces gènes ?  Annotation fonctionnelle

  3. Les gènes • ●Ou sont les gènes? • ● Les prédictions sont basées sur la structure (motifs, signatures ): intron, exon, splice site, UTR. • Gène prédit fonctionnel •  Structure complète • Codon initiateur M (ATG) • Stop codon TAA, TAG or TGA • GT (GC) / AG splicing site • Pas de stop dans les exons prédits • Pseudogene (non fonctionnel) •  Structure NON complete • missing_acceptor • missing_donor • missing_start_codon • missing_stop_codon • multiple_stop_in_frame Stop ATG GT AG CDS (CoDing Sequence) Exon2 Exon1 Gene

  4. Annotation automatique Deux méthodes d'annotation automatique : 1. Méthodes intrinsèques (ab-initio) 2. Méthodes extrinsèques

  5. 1. Méthode intrinsèque d'annotation automatique • Basée uniquement sur des analyses informatiques avec des modèles statistiques • Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome • - Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"

  6. 1. Méthode intrinsèque d'annotation automatique brin direct brin complémentaire Lukashin & Borodovsky, 1998 ensemble des transitions possibles entre états cachés (cercles)

  7. Outils d'annotation automatique des gènes Exemples de logiciels de prédiction des gènes Plantes: GeneMark.HMM GeneFinder Eugene FgeneSH GlimmerA Augustus Animaux: Genie HMMgene MagPie GenID Grail Humain: Genescan GeneFinder GeneWise

  8. 2. Méthodes extrinsèques Approche comparative basée sur les similarités de séquences -> la séquence à annoter est comparée aux bases de données 3 types de comparaison Protéine ADNc ADNg ADNg Alignement ADNg - Protéine Alignement ADNg - ADNc Alignement ADNg - ADNg

  9. 2. Méthodes extrinsèques L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits dans les bases de données sequence (query) target (Subject) database BLASTN nucleotide nucleotide NR , EST, genomes BLASTX translated nucleotide protein Swissprot-Trembl BLASTP protein protein Swissprot-Trembl TBLASTX translated nucleotide translated nucleotide NR , EST, genomes TBLASTN protein translated nucleotide NR , EST, genomes

  10. 2. Méthodes extrinsèques Domaines protéiques conservés = signatures Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines Interproscan: classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants BD de domaines utilisées par Interproscan : Prosite patterns Pfam ProDom Superfamily TIGRFAMs GENE3D HAMAP PANTHER PIRSF http://www.ebi.ac.uk/interpro/

  11. Bases de données…oui, mais… • Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) • exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments). •  Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs • Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) • Cluster d’ESTs disponibles, detection de structures correspondant à des gènes • Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)

  12. Eléments répétés Les gènes ne représentent qu’une petite portion du génome ● Les éléments répétés peuvent représenter plus de 80% du génome (blé) différents types Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.

  13. LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy) Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons

  14. Masquer les séquences répétées • On peut filtrer les éléments répétés avant l'annotation des gènes • les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces) • les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment) • Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée  Repeat maskerest l'outil le plus utilisé pour masquer les répétitions http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker

  15. Annotation automatique Annotation automatique pratique, mais à vérifier manuellement ! Réalisée avec des programmes informatiques, algorithmes statistiques travail humain, donc : - le résultat est un équilibre entre faux positifs et faux négatifs - le transfert peut induire des erreurs ou des aberrations - lent ! - également source d'erreur !  Annoter manuellement les gènes dans les régions d'intérêt  Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)

  16. Méthode intégrative d'annotation automatique Méthode intégrative = ab-initio + approches comparatives Prédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)

  17. Evaluation de la pertinence de l’annotation Exemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago VP (vrais positifs) gènes prédits, réellement présents = bonne prédiction FP (faux positifs) gènes prédits, mais réellement non présents = sur prédiction FN (faux négatifs) gènes non prédits, mais normalement présents = sous prédiction VN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp Sensibilité = Spécificité =

  18. Combiner d'annotation automatique http://eugene.toulouse.inra.fr/

  19. Eugene A B C blastp tblastn Interproscan BBMH Greenphyl blastx GTh Exonerate Eugene: fonctionnement DNA sequence Blastx FGenesH Genome Threader SpliceMachine Eugene HMM STRUCTURAL blastp tblastn Interproscan BBMH Greenphyl FUNCTIONAL blastx Gth Exonerate

  20. EuGène : fichier graphique de sortie

  21. Annotation manuelle exemple de logiciel d'annotation : Artemis transposon gène (7 exons) séquence nucléotidique Eléments annotés http://www.sanger.ac.uk/resources/software/artemis/

  22. Plateforme d'annotation GNPAnnot au CIRAD Annotation manuelle Annotation automatique Annotateur intégration vérification croisement analyse http://southgreen.cirad.fr/ Dr Stéphanie Sidibe Bocs

  23. Plateforme d'annotation GNPAnnot au CIRAD http://www.gnpannot.org/

  24. GBrowse : outil de visualisation de l'annotation nom et taille de la séquence Espèce, plateforme d'annotation utilisée séquence Gènes annotés

  25. GBrowse : outil de visualisation de l'annotation nom et taille de la séquence Espèce, plateforme d'annotation utilisée séquence Eléments répétés annotés

  26. A vous de jouer …

More Related