HOBACGEN : phylogénie des gènes de bactéries et d’archées
This presentation is the property of its rightful owner.
Sponsored Links
1 / 26

HOBACGEN : phylogénie des gènes de bactéries et d’archées Guy Perrière et Laurent Duret PowerPoint PPT Presentation


  • 50 Views
  • Uploaded on
  • Presentation posted in: General

HOBACGEN : phylogénie des gènes de bactéries et d’archées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1. Génomique comparative. Recherche de régions codantes.

Download Presentation

HOBACGEN : phylogénie des gènes de bactéries et d’archées Guy Perrière et Laurent Duret

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Hobacgen phylog nie des g nes de bact ries et d arch es guy perri re et laurent duret

HOBACGEN : phylogénie des gènes de bactéries et d’archées

Guy Perrière et Laurent Duret

Pôle Bioinformatique Lyonnais

Laboratoire de Biométrie et Biologie Évolutive

UMR CNRS n° 5558

Université Claude Bernard – Lyon 1


G nomique comparative

Génomique comparative

  • Recherche de régions codantes.

  • Analyse fonctionnelle:

    • Prédiction de la fonction d’une protéine.

    • Repérage de régions fonctionnelles.

  • Étude des contraintes structurales:

    • Prédiction de structures secondaires.

    • Recherche de mutations compensatoires.


Volution mol culaire

Évolution moléculaire

  • Estimation du contenu du génome ancestral.

  • Recherche de transferts horizontaux entre certaines espèces bactériennes.

  • Détermination de voies métaboliques com-munes ou spécifiques à certains taxons.

  • Étude de la contribution des duplications géniques à l’évolution des génomes.


Banques g n ralistes

Banques généralistes

  • Faiblesse des annotations:

    • Définitions rares ou erronées.

  • Informations limitées au fait qu’un gène est similaire à un autre ou à une famille:

    • /note="similar to tremblnew|U52681|MT52681_5"

    • /note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic"

    • /note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"


Le syst me entrez

Réfs.

(PubMed)

Génomes

Complets

Phylogénie

(Taxman)

Structures

(MMDB)

Séq. Nucl.

(GenBank)

Séq. Prot.

(GenPept)

Le système ENTREZ

  • Introduit la notion de voisins entre séquen-ces, structures et références.

  • Les voisinages entre séquences sont établis sur des critères de similarité.

  • Pas d’accès aux ali-gnements multiples.


Recherche manuelle

Recherche manuelle

  • La recherche des homologues et l’interpré- tation des homologies requièrent :

    • De déterminer des similarités.

    • De calculer des alignements multiples.

    • De construire des arbres phylogénétiques.

    • De disposer de données taxonomiques.

    • De pouvoir accéder aux annotations des banques.


Contenu d hobacgen

Contenu d’HOBACGEN

  • Organisation des gènes en familles.

  • Alignements multiples.

  • Arbres phylogénétiques.

  • Données taxonomiques du NCBI.

  • Séquences protéiques de SWISS-PROT / TrEMBL.

  • Séquences nucléotidiques d’EMBL.


Construction des familles

Construction des familles

  • Comparaison de toutes les séquences proté-iques entre elles au moyen de BLASTP2:

    • Avantages:

      • Plus grande sensibilité que BLASTP.

      • Permet l’introduction de gaps.

    • Paramètres utilisés :

      • Filtrage des régions de faible complexité par le programme SEG.

      • Matrice BLOSUM62.

      • Seuil fixé à E ≤ 10-4.


S lection des segments

Sélection des segments

S3

S1

S2

S4

Séq. A

Séq. B

S1’

S2

Séq. A

Séq. B

∆lg3

∆lg1

lgHSP1

∆lg2

lgHSP2


Crit res d int gration

Critères d’intégration

  • Deux séquences non partielles font partie d’une même famille si:

    • Les régions conservées restantes recouvrent au moins 80% de la longueur.

    • Leur similarité est ≥ 50%.

  • Utilisation de l’inclusion transitive simple:

    • Si {A,B}  F et {B,C}  F  {A, B, C}  F même si {A,C} ne remplit pas les critères pré-cédents.


S quences partielles

Séquences partielles

  • Une séquence partielle peut être incluse dans une famille préexistante si:

    • Elle rempli les conditions requises pour les séquences non partielles.

    • Sa longueur est ≥ 100 AA ou ≥ 50% de la lon- gueur des autres séquences.

  • L’inclusion transitive ne s’applique pas aux séquences partielles.


Structure en domaines

6PG1_YEAST

6PGD_CANAL

6PGD_SOYBN

6PG2_BACSU

O32911_MYCLR

P95165_MYCTU

6PGD_CERCA

Q40311_MEDSA

Y770_MYCTU

Y229_SYNY3

Structure en domaines

Découpage en domaines de la famille 6PGD


D rives li es la modularit

A

B

C

Dérives liées à la modularité

Classification

de A, B, C?

  • En simple lien, risque d’intégration dans une même famille de protéines non-homologues:

    • Maintient de seuils élevés pour la longueur et intégra-tion des données de Prodom dans HOBACGEN.


Alignements et arbres

Alignements et arbres

  • Les alignements sont calculés avec CLUS- TALW version 1.7 (paramètres par défaut).

  • Les arbres sont construits en utilisant :

    • La divergence observée comme distance.

    • BIONJ avec une matrice de distances complète.

    • La méthode de Guénoche (non publiée) avec une matrice de distances incomplète.

    • Racinement par la méthode du mid-point.


Acc s la banque

Accès à la banque

  • Architecture de type client/serveur:

    • Supprime les problèmes d’installation et de mises à jour pour les utilisateurs.

    • Utilisation de miroirs pour limiter les risques d’embouteillage sur le serveur principal.

  • Informations pour le téléchargement du client et du serveur disponible à l’URL:

    http://pbil.univ-lyon1.fr/databases/hobacgen.html


Architecture client serveur

Requêtes

HTTP

ACNUC

T-RRDLNHS

TVRRDFQYI

TVRRDIRKL

TIRRDL-KL

TIRRDI--L

TIRRDLIN-

EMBL

Arbres

ACNUC

SWISS-

PROT

Alignements

Architecture client-serveur

Service Web

+

Programme C

(Unix)

Client Java

(Unix, Mac, Windows)


Visualisation des familles

Families

File

View

Select

Help

Total number of families: 36153

HBG000059 5 5 POTASSIUM-TRANSPORTING ATPASE A CHAIN

HBG000060 6 6 CA-TRANSPORTING ATPASES; POTASSIUM-TRANSPORTING ATPASE

HBG000061 4 4 POTASSIUM-TRANSPORTING ATPASE C CHAIN

HBG000062 33 30 ATPASE A CHAIN FAMILY

HBG000063 40 36 ATP SYNTHASE ALPHA CHAIN, MITOCHONDRIAL; ATP SYNTHASE

HBG000064 68 60 ATP SYNTHASE BETA CHAIN, MITOCHONDRIAL; ATP SYNTHASE B

HBG000065 2 2 ATPASE DELTA CHAIN FAMILY

HBG000066 17 17 ATP SYNTHASE EPSILON CHAIN; SODIUM ION SPECIFIC; ATP S

HBG000067 1 1 ATP SYNTHASE B CHAIN; ATPF_VIBAL

HBG000068 1 1 ATP SYNTHASE B CHAIN; ATPF_HELPY

HBG000069 38 36 ATP SYNTHASE GAMMA CHAIN, MITOCHONDRIAL; ATP SYNTHASE

HBG000070 1 1 ATP SYNTHASE E CHAIN; MITOCHONDRIAL; ATPJ_YEAST

HBG000071 1 1 ATPASE C CHAIN FAMILY; ATP SYNTHASE C CHAIN; ATPL_HELP

HBG000072 1 1 N-ACYL-D-AMINO-ACID DEACYLASE FAMILY; N-ISOPROPYLAMMEL

HBG000073 1 1 AURACYANIN B; AURB_CHLAU

HBG000074 3 3 AZLC FAMILY; AF1755; BRANCHED-CHAIN AMINO ACID TRANSPO

HBG000075 3 3 ALZD/HI1737/HP1330 FAMILY; BRANCHED-CHAIN AMINO ACID T

HBG000076 19 16 AZURIN II; AZURIN ISO-1; AZURIN ISO-2; H.8 OUTER MEMBR

Visualisation des familles


Visualisation de l arbre

Tree

Family: HBG000066

ACCC_METJA

ACCC_BACSU

ACCC_PSEAE

ACCC_HAEIN

ACCC_ECOLI

Q55160

Q54755

ACCC_ANASP

Select

Subtree

Outgroup

Swap nodes

Partial

Length

Use leaf

Up

Reset

Colors

Close

Help

Visualisation de l’arbre


Visualisation des s quences

Sequence

ACC_ECOLI

ID ACCC_ECOLI STANDARD; PRT; 449 AA.

AC P24182;

DT 01-MAR-1992 (REL. 21, CREATED)

DT 01-FEB-1994 (REL. 28, LAST SEQUENCE UPDATE)

DT 01-FEB-1997 (REL. 35, LAST ANNOTATION UPDATE)

DE BIOTIN CARBOXYLASE (EC 6.3.4.14) (A SUBUNIT OF ACETYL-COA

DE CARBOXYLASE (EC 6.4.1.2)) (ACC).

GN ACCC OR FABG.

OS ESCHERICHIA COLI.

OC PROKARYOTA; GRACILICUTES; SCOTOBACTERIA; FACULTATIVELY ANAEROBIC RODS;

OC ENTEROBACTERIACEAE.

RN [1]

RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.

RC STRAIN=K12;

RX MEDLINE; 92052166.

RA KONDO H., SHIRATSUCHI K., YOSHIMOTO T., MASUDA T., KITAZONO A.,

RA TSURU D., ANAI M., SEKIGUCHI M., TANABE T.;

RL PROC. NATL. ACAD. SCI. U.S.A. 88:9730-9733(1991).

Close

Help

Visualisation des séquences


Visualisation des alignements

Alignment

ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPA

Q54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAA

Q55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPP

ACCC_ECOLI -MLDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAP

ACCC_HAEIN -MLEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAP

ACCC_PSEAE -MLEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAP

ACCC_BACSU -MIKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKA

ACCC_METJA -MFNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAP

Close

Help

Visualisation des alignements


Transferts horizontaux

Transferts horizontaux

  • Remise en cause de la notion d’espèce chez les procaryotes.

  • Fiabilité des méthodes de reconstruction phylogénétiques.

  • Implication dans l’acquisition de la patho-génicité chez certaines souches.

  • Résistance aux antibiotiques et aux métaux lourds.


M thodes intrins ques

Méthodes intrinsèques

  • Utilisent exclusivement l’information stockée au sein du génome étudié.

  • Se basent sur la composition en codons ou en oligonucléotides des gènes.

  • Ne tiennent pas compte des variations de G+C% existant le long du chromosome:

    • Surestimation du nombre de gènes transférés au voisinage du terminus de réplication.


M thodes extrins ques

A

E

B

D

C

A

E

B

D

C

Méthodes extrinsèques

Congruence avec

l’arbre des espèces

Gène X

Transfert horizontal

Gène Y


Phylog nie de ilvd

Phylogénie de ilvD

S. coelicolor

E. coli

86

100

H. infuenzae

73

B. aphidicola

Protéobactéries

Firmicutes

Cyanobactérie

Eucaryote

95

M. leprae

100

M. tuberculosis

100

S. cerevisiae

100

L. lactis

88

Synechocystis

Archaea

Famille de la dihydroxy-acid déshydratase


Alignement des g nes ilvd

Alignement des gènes ilvD

M. tuberculosisGMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR-------GITARDILTKEAFENA/…/

M. lepraeGMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR-------GITARDILTKEAFENA/…/

L. lactisGMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK-------DIKPSDIMTKEAFENA/…/

S. cerevisiaeGLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL-------GILPRDILTKEAFENA/…/

SynechocystisGMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK-------QILPSQILTRKAFENA/…/

H. influenzaeGLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/

E. coliGLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/

B. aphidicolaGLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/

S. coelicolorGLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/

*:: * . * : . : : . . : * :* **

M. tuberculosisAENLAAITPPD-----------------------------------PDGK-VLRALANPI

M. lepraeAENLASIAPPD-----------------------------------PDGQ-VIRTLHNPI

L. lactisAENVETALDLD-----------------------------------FDSQDIMRPLKNPI

S. cerevisiaeAERAKKAPSLP------------------------------------EGQEIIKPLSHPI

SynechocystisAEVLADIPDQP-----------------------------------PAGQDVIHSWDDPV

H. influenzaeGEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAI

E. coliPQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAY

B. aphidicolaEKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAY

S. coelicolorADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY

. :. .:


Perspectives

Perspectives

  • Introduction dans les alignements et les arbres de séquences personnelles.

  • Visualisation des données sur les domaines protéiques (ProDom).

  • Développement d’autres banques sur le même modèle :

    • Gènes de recepteurs nucléaires.

    • Bactéries endocytobiotiques.

    • Tous les gènes disponibles!


  • Login