Banques de données:
Download
1 / 52

Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences - PowerPoint PPT Presentation


  • 77 Views
  • Uploaded on

Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences. Alignements vers 1960. b -corticotropine (ovine) Corticotropine A (porcine). ala gly glu asp asp glu asp gly ala glu asp glu. CYIQNCPLG CYFQNCPRG. Oxytocine Vasopressine.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences' - vicky


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Banques de données:

Indicateurs d’évolution

et de spéciation

Alignement des

séquences


Alignements vers 1960

b-corticotropine (ovine)

Corticotropine A (porcine)

ala gly glu asp asp glu

asp gly ala glu asp glu

CYIQNCPLG

CYFQNCPRG

Oxytocine

Vasopressine


Alignement de s quences op ration la plus fondamentale
Alignement de séquencesOpération la plus fondamentale

  • Savoir si 2 protéines ou 2 gènes sont reliés structuralement ou fonctionnellement.

  • Identifier des domaines ou des motifs récurrents.

  • À la base des recherches en « blast ».

  • Analyse du génome.


Alignement de prot ines vs adn

Alignement de protéines vs ADN

Une protéine contient plus d’information (20 vs 4). De plus plusieurs aa sont équivalents.

Les codons sont dégénérés (souvent, chgmt position 3 code le même aa).

Les séquences aa procurent une vision + longue.

Séquences ADN peuvent être traduites avant un alignement.


S quence prot ine informative que s quence de dna
Séquence protéine + informative que séquence de DNA

le DNA peut être traduit selon 6 cadres de lecture

5’ CAT CAA

5’ ATC AAC

5’ TCA ACT

5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’

3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’

5’ GTG GGT

5’ TGG GTA

5’ GGG TAG


Mais aligner des s q adn peut permettre de
… mais aligner des séq. ADN peut permettre de

  • Confirmer identité d’un cDNA

  • Étudier les séquences non codantes

  • Étudier le polymorphisme

  • Vous comparer à l’h. de cromagnon

Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240

Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247


Il y a des pi ges
Il y a des pièges

retinol-binding protein

(NP_006735)

b-lactoglobulin

(P02754)

2 lipocalines issues de la duplication d’un gène. Structures 3D très semblables

mais peu d’identités d’aa dans la séquence.


Alignement s q pairwise
Alignement séq. (pairwise)

Étalement de 2 ou plusieurs séquences afin d’achever le maximum d’identité (et de conservation dans le cas des aa) en vue d’établir leur degré de similarité et leur homologie.


D finitions
Définitions

  • Homologie : Similarité attribuée à la descendance d’un ancêtre commun

  • Identité: Degré d’invariance d’une séquence de nucléotides ou aa

RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84

+ K ++ + + + GTW++ MA + L + A V T + +L+ W+

glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEI V LHRWEN 81


2 types d homologie
2 types d’homologie

  • Orthologues: séquences homologues dans des espèces différentes issues d’un gène ancestral commun au cours de la spéciation. Peuvent avoir la même fonction.

  • Paralogues: séquences homologues chez une même espèce, issues de la duplication d’un gène.


common carp

zebrafish

rainbow trout

teleost

Orthologues de la RBP

(rét. binding prot.)

African

clawed

frog

chicken

human

mouse

rat

horse

10 chgmts

pig

cow

rabbit


apolipoprotein D

retinol-binding

protein 4

Paralogues:

Membres de la même famille de protéines chez Hs.

Complement

component 8

Alpha-1

Microglobulin

/bikunin

prostaglandin

D2 synthase

progestagen-

associated

endometrial

protein

neutrophil

gelatinase-

associated

lipocalin

Odorant-binding

protein 2A

10 chgmts

Lipocalin 1


Alignement global
Alignement global

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP

. ||| | . |. . . | : .||||.:| :

1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP

: | | | | :: | .| . || |: || |.

45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP

|| ||. | :.|||| | . .|

94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP

. | | | : || . | || |

136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin


D finitions1
Définitions

  • Similarité: degré de relation de 2 séquences (identité + conservation)

  • Identité: degré d’invariance

  • Conservation: changement qui conserve la propriété physicochimique (aa seulement)


RBP vs Lactoglob.

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP

. ||| | . |. . . | : .||||.:| :

1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP

: | | | | :: | .| . || |: || |.

45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP

|| ||. | :.|||| | . .|

94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP

. | | | : || . | || |

136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin

Simil. +/-

Similarité

Identité

Gap

Interne ou terminal


GAPS

  • Position où une lettre n’est appariée à rien

  • On lui donne généralement un score négatif

  • Comme une mutation peut donner une insertion ou une délétion de plus d’un résidu, la présence d’un gap est plus importante que sa longueur


Gaps r v lateurs
Gaps révélateurs

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP

. ||| | . |. . . | : .||||.:| :

1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP

: | | | | :: | .| . || |: || |.

45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP

|| ||. | :.|||| | . .|

94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP

. | | | : || . | || |

136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin


RBP vs RBP (Hs vs O. mykiss truite arc-en-ciel)

1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48

:: || || || .||.||. .| :|||:.|:.| |||.|||||

1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47

. . . . .

49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98

|||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || |

48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97

. . . . .

99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148

||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| |

98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147

. . . . .

149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199

|||:||| | || || |||| :..|:| .|| : | |:|:

148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS...... 192


Alignement volution
Alignement ► évolution

Origine

De la vie

+vieux

fossiles

Origine des

eucaryotes

Eucaryotes/

archaea

Plantes

Animaux

insectes

Milliards d’années

4

3

2

1


glyceraldehyde 3-phosphate déshydrogenases

Mouche GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA

Humain GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA

Plante GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA

Bacterie GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA

Levure GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA

Archo b. GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA

KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST

KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST

KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST

KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST

KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST

KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST

GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK

GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV

GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA

GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA

GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV

GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA


Famille des lipocalines

Séquences paralogues chez Hs

~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1

LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2a

TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo.

VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein D

VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding protein

LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass.

VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthase

VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulin

PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD... complement component 8

motif ►GXW


Approche g n rale
Approche générale

  • Choisir les séquences

  • Sélectionner un algorithme

  • Permettre ou pas les gaps

  • Choisir un alignement global ou local

  • Estimer la probabilité que alignement survienne par hasard.


Calcul d un score d alignement
Calcul d’un score d’alignement


L analyse de margaret dayhoff sur 34 familles de prot ines
L’analyse de Margaret Dayhoff sur 34 familles de protéines

ProtéineMutations / 100 millions années

Ig kappa chain 37

Kappa casein 33

Lactalbumin 27

Hemoglobin a 12

Myoglobin 8.9

Insulin 4.4

Histone H4 0.10

Ubiquitin 0.00


Fr quence des remplacements 1572 cas les valeurs sont x10
Fréquence des remplacements protéines1572 cas (les valeurs sont x10)


Occurrence des aa protéines

Gly 8.9% Arg 4.1%

Ala 8.7% Asn 4.0%

Leu 8.5% Phe 4.0%

Lys 8.1% Gln 3.8%

Ser 7.0% Ile 3.7%

Val 6.5% His 3.4%

Thr 5.8% Cys 3.3%

Pro 5.1% Tyr 3.0%

Glu 5.0% Met 1.5%

Asp 4.7% Trp 1.0%

bleu=6 codons; rouge=1 codon


“Mutabilité” relative des aa protéines

# mut / fréq. occurr.

Asn 134 His 66

Ser 120 Arg 65

Asp 106 Lys 56

Glu 102 Pro 56

Ala 100 Gly 49

Thr 97 Tyr 41

Ile 96 Phe 41

Met 94 Leu 40

Gln 93 Cys 20

Val 74 Trp 18


Acide aminé original protéines

Acide aminé de remplacement

Probabilité de mutation si on accepte 1% de changement

Point accepted mutation = 1% ► PAM1


Les valeurs dans cette matrice réflètent la probabilité de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.


Matrice de substitution pam blossum
Matrice de substitution de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.(PAM & BLOSSUM)

  • Contient des valeurs proportionnelles à la probabilité qu’un aa i subisse une mutation en aa j (pour chaque paire aa alignés)

  • Les matrices sont construites empiriquement à partir de séquences connues

  • Elles devraient réfléter la véritable probabilité de mutation sur une période de temps donnée


Matrices pam
Matrices PAM de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

  • Basées sur l’alignement global de protéines très reliées (>85% identité aa)

  • PAM 1 est obtenue par comparaison de séquences qui divergent de 1% ou moins

  • Les autres matrices PAM sont extrapolées à partir de PAM 1


PAM de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

A

R

N

D

C

Q

E

G

Ala

Arg

Asn

Asp

Cys

Gln

Glu

Gly

A

8.7%

8.7%

8.7%

8.7%

8.7%

8.7%

8.7%

8.7%

R

4.1%

4.1%

4.1%

4.1%

4.1%

4.1%

4.1%

4.1%

N

4.0%

4.0%

4.0%

4.0%

4.0%

4.0%

4.0%

4.0%

D

4.7%

4.7%

4.7%

4.7%

4.7%

4.7%

4.7%

4.7%

C

3.3%

3.3%

3.3%

3.3%

3.3%

3.3%

3.3%

3.3%

Q

3.8%

3.8%

3.8%

3.8%

3.8%

3.8%

3.8%

3.8%

E

5.0%

5.0%

5.0%

5.0%

5.0%

5.0%

5.0%

5.0%

PAM 2000

G

8.9%

8.9%

8.9%

8.9%

8.9%

8.9%

8.9%

8.9%


Comment extrapoler partir de pam1
Comment extrapoler de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.à partir de PAM1 ?

probabilité x probabilité


PAM250 de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

Somme des colonnes = 100 ou 101


Matrice de probabilit de mutation matrice de pointage
Matrice de probabilité de mutation de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.► Matrice de pointage

  • Donner un pointage (score) à un alignement: ratio de vraisemblance

Score

Pourquoi le log ? Plus facile d’additionner que de multiplier.


PAM250 de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

Matrice de vraisemblance (log odds)


Pourquoi tablir une matrice logarithmique de vraisemblance
Pourquoi établir une matrice logarithmique de vraisemblance de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

Sous forme d’un log, il ne reste qu’à additionner les scores pour chaque paire d’aa au lieu de les multiplier


Expl pour 2 tryptophanes align s s w w 10 log 0 55 0 010 17 4
Expl. pour 2 tryptophanes alignés S(W/W)=10 log(0,55/0,010) = 17,4

Un score de +17 pour l’alignement de 2 W signifie que cet alignement est 50 fois plus vraisemblable qu’un alignement simplement du au hasard.


Signification de ces chiffres
Signification de ces chiffres = 17,4

  • Score =+2 indique que ce remplacement survient 1.6 fois plus souvent que le voudrait le hasard

  • Score =0 ne dit rien (neutre)

  • Score =-10 indique que la possibilité que l’alignement de ces 2 aa représente correctement une homologie est 10 fois moins probable qu’un alignement par chance des ces 2 aa.


PAM 250 = 17,4


PAM10 = 17,4


60% identité score=23 = 17,4

hsrbp, 136 CRLLNLDGTC

btlact, 3 CLLLALALTC

* ** * **

PAM40

vs

24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7%

hsrbp, 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV

btlact, 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN

* **** * * * * ** *

hsrbp, 86 --CADMVGTFTDTEDPAKFKM

btlact, 80 GECAQKKIIAEKTKIPAVFKI

** * ** **

PAM250


Quelle matrice choisir
Quelle matrice choisir ? = 17,4

Rat vs souris

Rat vs bactérie

PAM vs BLOSSUM


BLOSUM Matrices = 17,4

Basées sur des alignements locaux

BLOSUM : blocks substitution matrix.

Expl: BLOSUM62 est obtenu en groupant

les séquences qui ont 62% identité ou plus.


BLOSUM Matrices = 17,4

100

100

100

collapse

collapse

62

62

62

collapse

Percent amino acid identity

30

30

30

BLOSUM80

BLOSUM62

BLOSUM30


BLOSUM Matrices = 17,4

Toutes les matrices BLOSSUM sont basées sur des

alignements observés;

Aucune n’est extrapolée

La banque BLOCKS database contient des milliers

d’alignements

BLOSUM62 est souvent la matrice de défaut dans BLAST


BLOSSUM62 = 17,4

Les scores sont plus faibles ► 2 x logbase2(ratio vraisemblance)


Limites de fiabilit
Limites de fiabilité = 17,4

Pourcent identité

Differences par 100 residus (PAM)

À 15% identité, un ne reconnaît plus d’homologie


à PAM1, 2 protéines sont identiques à 99% = 17,4

PAM10.7 : 10 differences par 100 residus

PAM80 : 50 différences

PAM250 : 80 differences

  • 2 protéines avec 50% d’identité peuvent avoir subi

  • 80 changements par 100 résidus.

  • N’importe quelle

  • Mutation peut être réversible


ad