Annotation des génomes
This presentation is the property of its rightful owner.
Sponsored Links
1 / 32

Annotation des génomes et réalité biologique Pierre Rouzé [email protected] http://bioinformatics.psb.ugent.be/ PowerPoint PPT Presentation


  • 76 Views
  • Uploaded on
  • Presentation posted in: General

Annotation des génomes et réalité biologique Pierre Rouzé [email protected] http://bioinformatics.psb.ugent.be/ Laboratoire INRA associé à l ’Université de Gand VIB Department of Plant Systems Biology BioInformatics & Evolutionary Genomics Unit.

Download Presentation

Annotation des génomes et réalité biologique Pierre Rouzé [email protected] http://bioinformatics.psb.ugent.be/

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Annotation des génomes

et réalité biologique

Pierre Rouzé

[email protected]

http://bioinformatics.psb.ugent.be/

Laboratoire INRA associé à l ’Université de Gand

VIB Department of Plant Systems Biology

BioInformatics & Evolutionary Genomics Unit


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Vous vous intéressez à une famille de gènes dans un ou plusieurs génomes que quelqu’un a séquencé pour vous …

Mais ce n’est pratiquement jamais la séquence brute du génome que vous allez utiliser … mais celle de sous-séquences de ce génome que quelqu’un a « annotées » pour vous

Comment a été faite cette annotation ? Que vaut-elle ? En quoi correspond-elle (ou non) à ce que vous imaginiez ?


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Notre équipe a acquis une expérience de l’annotation des

génomes eucaryotes en participant à de nombreux projets

de séquençage de génomes complets

Eukaryota

PlantaeChromalveolataAmoebozoa Rhizaria ExcavataOpisthokonts

Viridiplantae Rhodophyta Heterokonta

green plants red algae stramenopiles

ChlorophytaStreptophyta AlveolataDinophyceaePhaeophyceae FungiMetazoa

green algaedinoflagellates brown algae

Telonema

PrasinophyceaeChlorophyceaeCyanidioschyzon Thalassiosira Ectocarpus Homo sapiens

merolae pseudonana siliculosus D.melanogaster

& others

Plasmodium

Ostreococcus [x3] Chlamydomonas falcipaum

Micromonas reinhardii

BathycoccusEmbryophytaGlomeromycota Basidiomycota Ascomycota

BryophytaTracheophytaGlomusMelampsora

(mosses) (vascular plants) intraradicesLaccarialarici-populina

bicolor PhyscomitrellaSpermatophyta Heterobasidion

patens(seed plants) annosum

MagnoliophytaConiferopsida Tuber yeasts

melanosporum

LiliopsidaEudicotyledonsPicea abies

(monocotyledons)

Asterids Rosids

Oryza sativa

Eurosids II Eurosids I

BrassicalesMyrtales Fabales MalpighialesRosales

SolanumArabidopsis thaliana EucalyptusMedicago Manihot Populus Prunus

esculentum Arabidopsis Capsella globulus truncatula esculenta trichocarpa persica

lyrata rubella


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Annotation « structurale » des génomes

communément appelée « prédiction de gènes »

Objectif

Démarche & stratégies

Evaluation

Les problèmes

Où est la réalité biologique ? impact sur la phylogénie


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Positionner les éléments génétiques sur la séquence génomique

… de manière précise, complète et exhaustive

En pratique, le plus souvent, positionner les gènes et leurs produits : transcrits, protéines ..

mais aussi – quelquefois – d’autres objects, comme les éléments transposables, les motifs de régulation, les domaines, etc…

En général, implicitement, les gènes codant pour les protéines

mais aussi – souvent - les gènes codant pour les ARNt, les ARNr,

et - quelquefois - d’autres ARNs (snRNAs, snoRNAs, miRNAs)


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

5’

3’

W +

3’

5’

C -

5’

3’

In the beginning was the DNA sequence,

and everything was neat … but so deeply boring !


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Uba1 gene and associated features

strongly supported by many ESTs

Cdc55 gene and associated features

No EST, but database protein similarity

Then annotation came … and it was so funny… but such a mess, sometimes !


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Annotation « structurale » des génomes

communément appelée « prédiction de gènes »

Objectif

Démarche & stratégies

Evaluation

Les problèmes

Où est la réalité biologique ? impact sur la phylogénie


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Principes

  • Méthode expérimentale :

  • on aligne la séquence génomique (gDNA) et la séquence du transcrit cognat (cDNA), complet, isolé sur le même organisme

  • Méthodes comparatives (extrinsèques)

  • on traduit la séquence génomique en protéine sur ses 6 phases et on compare le tout aux séquences des protéines contenues dans les banques de données

  • on compare la séquence génomique à la séquence des ESTs dont on dispose

  • on compare la séquence génomique à la séquence génomique d’autres espèces

  • Méthodes ab initio (intrinsèques)

    on apprend à reconnaître les particularités communes à tous les gènes de notre génome, puis on recherche où on les retrouve sur la séquence génomique

  • Méthodes intégratives

    pourquoi ne pas combiner ces approches ?


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthode expérimentale

C’est l’unique méthode sûre pour l’annotation puisqu’elle permet de positionner le transcritdans sa totalité sur la séquence génomique sur une base expérimentale.

Par contre le positionnement de l’ATG initiateur lui est (quasi toujours) … virtuel

Même avec cette méthode, il y a des problèmes mal résolus :

En pratique, les cDNAs « pleine longueur » sont souvent incomplets

Les extrémités 3’ et 5’ sont rarement bien positionnées

il peut même manquer des exons !

Dans beaucoup d’espèces il y a plusieurs manières de lire un gène à un locus donné… et l’expérimentateur en a isolé une, à laquelle il s’intéresse

Les transcrits alternatifs sont (souvent) ignorés

La modélisation automatique des gènes par positionnement des exons transcrits n’est pas sûre à 100% : les petits exons et les petits introns sont difficiles à localiser (pour de simples raisons statistiques) et rique même d’être oubliés.


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes comparatives

Recherche dans les bases de données protéiques: principe

La logique de cette approche est basée sur l’existence de bases de données et sur l’évolution : si un gène GX a été décrit dans l’espèce X, on le retrouvera dans l’espèce Y apparentée … et la séquence du produit de ce gène GY (sur lequel agit la sélection) sera similaire à la séquence de la protéine codée par GX

Si X et Y sont vraiment très proches, la seule connaissance de la séquence protéique d’un gène GX de l’espèce X peut permettre la modélisation de son orthologue GY (et dans une moindre mesure de ses paralogues) sur le génome de Y

Si X et Y sont plus distants, ou si le gène G évolue rapidement, alors on aura la trace que ce gène existe chez Y, mais on ne pourra pas bâtir de manière sûre un modèle (complet) du gène GY sur la séquence génomique

Et si GY est un gène orphelin, on ne verra même pas qu’il existe par ce moyen…


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes comparatives

Recherche dans les bases de données protéiques: problèmes

Les bases de données de séquences protéiques sont (pour la très grande majorité) construites à partir de la traduction automatique de séquences nucléiques annotées

Si les dites séquences sont incomplètes (ex, EST), ou pire, ont été mal annotées alors les séquences protéiques déduites seront partielles ou erronées.

Du fait du nombre important de génomes séquencés, une fraction importante (>1/3) et croissante des protéines sont le sous-produit de ce séquençage et des annotations (souvent automatiques) qui en ont été faites… Un grand nombre de séquences de ces « protéines » sont donc entachées d’erreur, modestes (absence ou mauvaise frontière d’exon), sérieuses (frameshifts, fusion ou rupture de gènes) ou graves (gène inexistant). D’où l’intérêt de BD de protéines validées par des experts (ex: SwissProt)

Si les programmes d’annotation utilisent ces bases de données (ex: TrEMBL) les erreurs sont récursives et on finit par bâtir des familles entières de gènes imaginaires …


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes comparatives

Comparaison avec les séquences d’ESTs: principe & problèmes

La logique de cette approche est très semblable à l‘approche expérimentale, les ESTs étant des fragments d’ADNc isolés à partir de cellules de l’organisme étudié

Elle est même moins biaisée, puisque les ESTs sont séquencés de manière systémique: les transcrits alternatifs seront séquencés … s’ils sont exprimés

Les problèmes générés par l’emploi d’ESTs sont bien connus :

Les séquences d’ESTs sont de qualité médiocre et peuvent contenir des erreurs

Les séquences d’ESTs peuvent être contaminés par des copies d’ADN génomique

Les séquences d’ESTs ne recouvrent qu’une partiedu transcrit, normalement l’extrémité à partir de laquelle le séquençage a été amorcé (souvent 3’)

Les ESTs reflètent l’expression du génome : les gènes non (peu) exprimés dans les conditions où les transcrits ont été isolés n’y figurent pas

Les séquences des ESTs d’un gène G peuvent être attribuées à ses paralogues

Les avantages (sous-estimés) : les paires d’ESTs 5’-3’, la directionalité ..


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes comparatives

Comparaisons ADN génomique - ADN génomique

La logique de cette approche est ancrée dans l’évolution des génomes : c’est d’abord sur les produits des gènes que la sélection opère. On observe de ce fait que les séquences codantes sont les régions les plus conservées entre génomes apparentés

La comparaison de deux, ou mieux plusieurs génomes apparentés entre eux conduit à trouver les régions conservées qu’on attribue aux exons codants.

L’avantage de cette méthode est qu’elle ne dépend ni de l’annotation préalable des génomes (les gènes absents des bases de données peuvent être trouvés) ni de l’expressivité des gènes.

L’inconvénient majeur est qu’elle est davantage un prédicteur d’exons qu’un prédicteur de gènes: rien ne dit comment il faut regrouper les exons d’un même gène

Par contre elle ne fonctionne que dans une « fenêtre » évolutive assez étroite : le signal disparaît entre génomes trop distants et est très brouillé dans les génomes trop proches


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes ab initio

principe

Toute séquence d’ADN n’est pas celle d’un gène : les séquences de gènes ont des propriétés particulières, qui permettent d’ailleurs aux mécanismes d’expression de les transcrire, de produire un transcrit mature, de traduire ce transcrit …

Il peut s’agir de propriétés de contenu (par exemple les séquences codantes) ou des signaux (par exemple les motifs d’épissage)

Chaque (groupe de) génome(s) a un style qui lui est propre: usage du code, typologie des motifs, fréquence, taille et contenu des introns, nature et taille des régions non-traduites et des régions intergéniques …

Le processus de prédiction de gènes repose sur deux phases :

Apprentissage : il faut rassembler des gènes bien documentés, en extraire les données informatives et entraîner les algorithmes à les reconnaître individuellement

Prédiction : chaque algorithme élémentaire reconnaît une caractéristique, et la combinaison de ces éléments prédits conduit à la prédiction globale des gènes


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes ab initio

Prédiction des séquences codantes : principe

les séquences codantes ont une particularité forte, l’existence des codons qui rythme l’ADN en trinucléotides successifs. Chaque organisme fait un usage particulier du code: le reconnaître permet de l’utiliser en retour pour trouver quel segment (phasé) d’ADN a tendance à suivre cet usage particulier, ou non.

La probabilité de voisinage de deux codons n’est pas non plus le fait du hasard

La prédiction du « potentiel codant » se fait donc par la recherche de distribution des hexanucléotides, ou mieux par des méthodes d’analyse markovienne : sur une séquence ABCDEFG la probabilité de trouver F dépend de E qui le précède (chaine de Markov d’ordre 1) et/ou de D et E (chaine de Markov d’ordre 2), etc..

En pratique, on utilise des chaines de Markov phasées d’ordre 4, 5 ou 6 (GeneMark) ou « interpolées » d’ordre 1 & 2 & 3.. (Glimmer).

L’annotation structurale des génomes bactériens (qui ont le bon goût de ne pas posséder d’introns) fonctionne très bien avec cette unique information !


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes ab initio

Prédiction des séquences codantes : limites

L’usage du code n’est pas uniforme.

Certains gènes (souvent les plus exprimés) ont un biais de codon très fort, et d’autres beaucoup plus faible, voire neutre

Des régions entières du génome, ou des groupes de gènes peuvent avoir une composition particulière (ex GC% élevé) ou une origine phylogénétique distincte (Transfert Horizontal) et avoir de ce fait un usage particulier des codons

Certains gènes ont un biais de composition en acides aminés (par exemple les protéines membranaires intrinsèques) et, de ce fait, un usage du code déviant

A l’intérieur même des gènes, l’usage des codons n’est pas nécessairement uniforme. Le biais de codons peut –par exemple- aller en se dégradant de l’ATG initiateur au Stop. Les séquences d’adressage N-terminale ont une composition biaisée en acides aminés et du coup elles aussi un usage du code déviant


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

exemple typique de motifs : les sites d’épissage

Site donneur

Site accepteur

97.5%

exon

exon

intron

exon

2.5%

Exemple issus du

génome de Laccaria bicolor

(champignon basidiomycète)


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

  • Méthodes intégratives

Chacune des méthodes précédentes a ses avantages et ses inconvénients

Pour un génome particulier, on a des contraintes et des ressources spécifiques (limitées) qui conduisent dans chaque cas à construire un shéma adapté pour aboutir à un résultat optimal :

Nombre et couverture des ESTs

Proximité (ou non) avec un ou plusieurs génomes séquencés

Données pré-existantes (séquences validées de gènes, ARNm et de protéines)

Taille du génome, fréquence d’éléments transposables (connus, inconnus)

Qualité (taux de couverture) du séquençage et de l’assemblage

Connaissance de la biologie (génétique) de l’organisme, ou ignorance ?

Les méthodes intégratives se proposent de prendre en entrée les différents types d’information ou prédiction, de les prendre en compte de manière pondérée, et d’établir une prédiction unique.

L’exemple-type : Eugène


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Poplar proteins

Other At proteins

Other Plant proteins

SwissProt

Content potential for coding, intron and intergenic

Poplar IMM

PIR

Arabidopsis FLcDNA

supported proteins

Poplar

RepBase

Poplar

cDNA & EST

join(9265..9395,9749..99342). complement(join(10164..10295,10349..10420,10467..10514,10566..10626,10681..10770,10823..10949,11001))

TBlastx

Blastn

Blastx

RepeatMasker

SpliceMachine

Extrinsic

modules

Genome Sequence

Gene Models

Arabidopsis

genome

ATCCGTAAGATGGTGCGATGCCCTAAATGGGTCGGTTTATAAAGGCGCGTAGGTAAGTGCAATTTATTCTTCAAGTTCCGAATTTTATATGCGCATATCGTCAGTTCTTCTGTTGCAGTTGGCGCACTTGGACTACCTGCAATTTATTCTTCAAGTTCCGAATTTTATAT

EuGene DAG

Splice Sites

Start ATG

Translation Start Site prediction

Output

Input

Intrinsic modules


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Shifting from exon to intron …


Eug ne complete pipeline

Eugène complete pipeline

Annotation experts

Genome/Genome

conservation

Structural prediction

Proteins DB

BlastX hits

EuGène

SpliceMachine

Relations between

evidence and prediction

BACs

Pseudo molecule

Markov model

EST/ cDNA

alignments

Simple automatic

InterproScan based

functional annotation

Repeats

Other Existing

predictions

from Thomas Schiex, 2006


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Annotation « structurale » des génomes

communément appelée « prédiction de gènes »

Objectif

Démarche & stratégies

Evaluation

Les problèmes

Où est la réalité biologique ? impact sur la phylogénie


Gene finder evaluation

Gene finder evaluation

  • Sensitivity : % of functional units which are predicted.

  • Specificity : % of predicted units which are functional.

  • Nucleotide level (coding)Sn N/Sp N

  • Exon level (totally correct): Sn E/Sp E

  • Gene Level (all exons correct):Sn G/Sp G


Medicago truncatula

Medicago truncatula

Evaluation set from freshly sequenced BACs + mRNA

From Thomas Schiex, 2006


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Annotation « structurale » des génomes

communément appelée « prédiction de gènes »

Objectif

Démarche & stratégies

Evaluation

Les problèmes

Où est la réalité biologique ? impact sur la phylogénie


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Transposable Elements and other Repeats,

Gene modeling should be done after filtering out repeats …

In many eukaryotic organisms, Transposable Elements (TEs) occupy a large fraction of the genome than genes (see next slide)

The human genome is a typical case …

This makes gene finding even more difficult :

TEs may look like protein encoding genes (transposase and remains)

TEs perturb the deciphering of real gene models, e.g. by inserting as long stretches in introns

TEs insert into active genes and turn them into pseudogenes

TEs can carry and retrocopy inserted genes into other kind of pseudogenes

Identifying pseudogenes as such is a major issue for some genomes


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Genome size and Transposable Elements

Genome size (picograms)% TEs

Rana esculenta Frog 5.6–8.0 77

Zea mays Maize 5.0 60

Homo sapiens Human 3.5 45

Mus musculus Mouse 3.4 40

Drosophila melanogaster Fruitfly 0.18 15–22

Caenorhabditis elegansWorm 0.1 12

Saccharomyces cerevisiaeYeast 0.012 3–5

Escherichia coli Bacteria 0.0046 0.3

Taken from Biémont & Vieira, Nature (2006) 443:521-522


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Pseudogènes

Une définition floue, mais une réalité préoccupante

Les pseudogènes, des gènes inactivés, qui peuvent être transcrits ou non, dont le produit d’expression (s’il existe) n’est (probablement) pas fonctionnel

Certains pseudogènes sont issus de rétrocopies et d’autres sont de simples (copies de) gènes inactivés par mutation ou par insertion de TEs. Leurs séquences codantes n’étant plus soumises à la sélection fonctionnelle, leur séquence évolue librement, et au fil du temps l’origine des séquences fossiles devient difficilement reconnaissable

Ils sont une source de confusion pour les logiciels automatiques de prédiction de gènes qui tentent d’y construire des modèles de gènes normaux qui ne sont ni ceux de vrais gènes, ni même souvent ceux des pseudogènes sous-jacents.

Beaucoup de gènes « hypothétiques » (en particulier les gènes de petite taille) peuvent correspondre à de telles erreurs

In the investigation of pseudogenes (experimental investigation) is impossible; a computational tool might annotate a given segment as a pseudogene, but the prediction cannot be experimentally verified. from Mark Gerstein, Pseudogene.org, NAR database issue 2007


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

Annotation « structurale » des génomes

communément appelée « prédiction de gènes »

Objectif

Démarche & stratégies

Evaluation

Les problèmes

Où est la réalité biologique ?


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

La nature et la qualité des prédictions

Un exemple de ce qu’on aimerait toujours voir dans les fiches issues d’annotation

Protein 1..1016

/product="putative Fe-S oxidoreductase"

CDS 1..1016

/gene="ydiJ"

/locus_tag="PSHAb0556"

/coded_by="complement(CR954247.1:623016..626066)"

/inference="non-experimental evidence, no additional details recorded"

/note="Evidence 3 : Function proposed based on presence of

conserved amino acid motif, structural feature or limited homology;

Product type e : enzyme"

COMMENT

Each annotation includes a confidence level as follow:

1 : Function experimentally demonstrated in the studied organism

2a : Function of homologous gene experimentally demonstrated in an other organism

2b : Function of strongly homologous gene

3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homology

4 : Homologs of previously reported genes of unknown function

5 : No homology to any previously reported sequences

6 : Doubtful CDS

7 : Gene remnant.

Entryfrom Pseudoalteromonas haloplanktis TAC125, Médigue et al , 2005


Annotation des g nomes et r alit biologique pierre rouz pierre rouzepsb ugent be bioinformatics psb ugent be

La nature et la qualité des prédictions

Et non pas …

Protein 1..968

/product="D-lactate dehydrogenase (cytochrome)"

/EC_number="1.1.2.4"

/calculated_mol_wt=107616

CDS 1..968

/locus_tag="FjohDRAFT_3617" /coded_by="complement(NZ_AAPM01000003.1:593258..596164)"

Orthologuefrom Flavobacterium johnsoniae UW101, Copeland et al., 2006

Protein 1..977

/product="putative glycolate oxidase"

/calculated_mol_wt=106898

CDS 1..977

/locus_tag="ISM_04010"

/coded_by="NZ_AALY01000001.1:788861..791794"

/note="COG0277 FAD/FMN-containing dehydrogenases"

Orthologue from Roseovarius nubinhibens ISM, Moran et al. , 2005

Dans les deux cas une fonction spécifique est proposée, sans qu’on sache ce qui supporte ces assertions. Ici seule l’annotation fonctionnelle est en cause, mais s’agissant de génomes eucaryotes, ce type d’abus influe sur l’annotation structurale


  • Login