Banques de donnes:
This presentation is the property of its rightful owner.
Sponsored Links
1 / 52

Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences PowerPoint PPT Presentation


  • 48 Views
  • Uploaded on
  • Presentation posted in: General

Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences. Alignements vers 1960. b -corticotropine (ovine) Corticotropine A (porcine). ala gly glu asp asp glu asp gly ala glu asp glu. CYIQNCPLG CYFQNCPRG. Oxytocine Vasopressine.

Download Presentation

Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Banques de donnes:

Indicateurs dvolution

et de spciation

Alignement des

squences


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Alignements vers 1960

b-corticotropine (ovine)

Corticotropine A (porcine)

ala gly glu asp asp glu

asp gly ala glu asp glu

CYIQNCPLG

CYFQNCPRG

Oxytocine

Vasopressine


Alignement de s quences op ration la plus fondamentale

Alignement de squencesOpration la plus fondamentale

  • Savoir si 2 protines ou 2 gnes sont relis structuralement ou fonctionnellement.

  • Identifier des domaines ou des motifs rcurrents.

  • la base des recherches en blast.

  • Analyse du gnome.


Alignement de prot ines vs adn

Alignement de protines vs ADN

Une protine contient plus dinformation (20 vs 4). De plus plusieurs aa sont quivalents.

Les codons sont dgnrs (souvent, chgmt position 3 code le mme aa).

Les squences aa procurent une vision + longue.

Squences ADN peuvent tre traduites avant un alignement.


S quence prot ine informative que s quence de dna

Squence protine + informative que squence de DNA

le DNA peut tre traduit selon 6 cadres de lecture

5 CAT CAA

5 ATC AAC

5 TCA ACT

5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3

3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5

5 GTG GGT

5 TGG GTA

5 GGG TAG


Mais aligner des s q adn peut permettre de

mais aligner des sq. ADN peut permettre de

  • Confirmer identit dun cDNA

  • tudier les squences non codantes

  • tudier le polymorphisme

  • Vous comparer lh. de cromagnon

Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240

Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247


Il y a des pi ges

Il y a des piges

retinol-binding protein

(NP_006735)

b-lactoglobulin

(P02754)

2 lipocalines issues de la duplication dun gne. Structures 3D trs semblables

mais peu didentits daa dans la squence.


Alignement s q pairwise

Alignement sq. (pairwise)

talement de 2 ou plusieurs squences afin dachever le maximum didentit (et de conservation dans le cas des aa) en vue dtablir leur degr de similarit et leur homologie.


D finitions

Dfinitions

  • Homologie : Similarit attribue la descendance dun anctre commun

  • Identit: Degr dinvariance dune squence de nuclotides ou aa

RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84

+ K ++ + + + GTW++ MA + L + A V T + +L+ W+

glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEI V LHRWEN 81


2 types d homologie

2 types dhomologie

  • Orthologues: squences homologues dans des espces diffrentes issues dun gne ancestral commun au cours de la spciation. Peuvent avoir la mme fonction.

  • Paralogues: squences homologues chez une mme espce, issues de la duplication dun gne.


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

common carp

zebrafish

rainbow trout

teleost

Orthologues de la RBP

(rt. binding prot.)

African

clawed

frog

chicken

human

mouse

rat

horse

10 chgmts

pig

cow

rabbit


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

apolipoprotein D

retinol-binding

protein 4

Paralogues:

Membres de la mme famille de protines chez Hs.

Complement

component 8

Alpha-1

Microglobulin

/bikunin

prostaglandin

D2 synthase

progestagen-

associated

endometrial

protein

neutrophil

gelatinase-

associated

lipocalin

Odorant-binding

protein 2A

10 chgmts

Lipocalin 1


Alignement global

Alignement global

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP

. ||| | . |. . . | : .||||.:| :

1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP

: | | | | :: | .| . || |: || |.

45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP

|| ||. | :.|||| | . .|

94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP

. | | | : || . | || |

136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin


D finitions1

Dfinitions

  • Similarit: degr de relation de 2 squences (identit + conservation)

  • Identit: degr dinvariance

  • Conservation: changement qui conserve la proprit physicochimique (aa seulement)


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

RBP vs Lactoglob.

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP

. ||| | . |. . . | : .||||.:| :

1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP

: | | | | :: | .| . || |: || |.

45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP

|| ||. | :.|||| | . .|

94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP

. | | | : || . | || |

136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin

Simil. +/-

Similarit

Identit

Gap

Interne ou terminal


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

GAPS

  • Position o une lettre nest apparie rien

  • On lui donne gnralement un score ngatif

  • Comme une mutation peut donner une insertion ou une dltion de plus dun rsidu, la prsence dun gap est plus importante que sa longueur


Gaps r v lateurs

Gaps rvlateurs

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP

. ||| | . |. . . | : .||||.:| :

1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP

: | | | | :: | .| . || |: || |.

45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP

|| ||. | :.|||| | . .|

94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP

. | | | : || . | || |

136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

RBP vs RBP (Hs vs O. mykiss truite arc-en-ciel)

1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48

:: || || || .||.||. .| :|||:.|:.| |||.|||||

1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47

. . . . .

49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98

|||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || |

48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97

. . . . .

99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148

||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| |

98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147

. . . . .

149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199

|||:||| | || || |||| :..|:| .|| : | |:|:

148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS...... 192


Alignement volution

Alignement volution

Origine

De la vie

+vieux

fossiles

Origine des

eucaryotes

Eucaryotes/

archaea

Plantes

Animaux

insectes

Milliards dannes

4

3

2

1


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

glyceraldehyde 3-phosphate dshydrogenases

Mouche GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA

Humain GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA

Plante GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA

Bacterie GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA

Levure GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA

Archo b. GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA

KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST

KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST

KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST

KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST

KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST

KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST

GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK

GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV

GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA

GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA

GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV

GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Famille des lipocalines

Squences paralogues chez Hs

~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1

LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2a

TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo.

VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein D

VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding protein

LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass.

VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthase

VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulin

PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD... complement component 8

motif GXW


Approche g n rale

Approche gnrale

  • Choisir les squences

  • Slectionner un algorithme

  • Permettre ou pas les gaps

  • Choisir un alignement global ou local

  • Estimer la probabilit que alignement survienne par hasard.


Calcul d un score d alignement

Calcul dun score dalignement


L analyse de margaret dayhoff sur 34 familles de prot ines

Lanalyse de Margaret Dayhoff sur 34 familles de protines

ProtineMutations / 100 millions annes

Ig kappa chain37

Kappa casein33

Lactalbumin27

Hemoglobin a12

Myoglobin8.9

Insulin4.4

Histone H40.10

Ubiquitin0.00


Fr quence des remplacements 1572 cas les valeurs sont x10

Frquence des remplacements1572 cas (les valeurs sont x10)


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Occurrence des aa

Gly8.9%Arg4.1%

Ala8.7%Asn4.0%

Leu8.5%Phe4.0%

Lys8.1%Gln3.8%

Ser7.0%Ile3.7%

Val6.5%His3.4%

Thr5.8%Cys3.3%

Pro5.1%Tyr3.0%

Glu5.0%Met1.5%

Asp4.7%Trp1.0%

bleu=6 codons; rouge=1 codon


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Mutabilit relative des aa

# mut / frq. occurr.

Asn134His66

Ser120Arg65

Asp106Lys56

Glu102Pro56

Ala100Gly49

Thr97Tyr41

Ile96Phe41

Met94Leu40

Gln93Cys20

Val74Trp18


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Acide amin original

Acide amin de remplacement

Probabilit de mutation si on accepte 1% de changement

Point accepted mutation = 1% PAM1


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

Les valeurs dans cette matrice rfltent la probabilit de substitution de laa original (range du haut) par un autre (colonne de gauche.


Matrice de substitution pam blossum

Matrice de substitution (PAM & BLOSSUM)

  • Contient des valeurs proportionnelles la probabilit quun aa i subisse une mutation en aa j (pour chaque paire aa aligns)

  • Les matrices sont construites empiriquement partir de squences connues

  • Elles devraient rflter la vritable probabilit de mutation sur une priode de temps donne


Matrices pam

Matrices PAM

  • Bases sur lalignement global de protines trs relies (>85% identit aa)

  • PAM 1 est obtenue par comparaison de squences qui divergent de 1% ou moins

  • Les autres matrices PAM sont extrapoles partir de PAM 1


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

PAM

A

R

N

D

C

Q

E

G

Ala

Arg

Asn

Asp

Cys

Gln

Glu

Gly

A

8.7%

8.7%

8.7%

8.7%

8.7%

8.7%

8.7%

8.7%

R

4.1%

4.1%

4.1%

4.1%

4.1%

4.1%

4.1%

4.1%

N

4.0%

4.0%

4.0%

4.0%

4.0%

4.0%

4.0%

4.0%

D

4.7%

4.7%

4.7%

4.7%

4.7%

4.7%

4.7%

4.7%

C

3.3%

3.3%

3.3%

3.3%

3.3%

3.3%

3.3%

3.3%

Q

3.8%

3.8%

3.8%

3.8%

3.8%

3.8%

3.8%

3.8%

E

5.0%

5.0%

5.0%

5.0%

5.0%

5.0%

5.0%

5.0%

PAM 2000

G

8.9%

8.9%

8.9%

8.9%

8.9%

8.9%

8.9%

8.9%


Comment extrapoler partir de pam1

Comment extrapoler partir de PAM1 ?

probabilit x probabilit


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

PAM250

Somme des colonnes = 100 ou 101


Matrice de probabilit de mutation matrice de pointage

Matrice de probabilit de mutation Matrice de pointage

  • Donner un pointage (score) un alignement: ratio de vraisemblance

Score

Pourquoi le log ? Plus facile dadditionner que de multiplier.


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

PAM250

Matrice de vraisemblance (log odds)


Pourquoi tablir une matrice logarithmique de vraisemblance

Pourquoi tablir une matrice logarithmique de vraisemblance

Sous forme dun log, il ne reste qu additionner les scores pour chaque paire daa au lieu de les multiplier


Expl pour 2 tryptophanes align s s w w 10 log 0 55 0 010 17 4

Expl. pour 2 tryptophanes aligns S(W/W)=10 log(0,55/0,010) = 17,4

Un score de +17 pour lalignement de 2 W signifie que cet alignement est 50 fois plus vraisemblable quun alignement simplement du au hasard.


Signification de ces chiffres

Signification de ces chiffres

  • Score =+2 indique que ce remplacement survient 1.6 fois plus souvent que le voudrait le hasard

  • Score =0 ne dit rien (neutre)

  • Score =-10 indique que la possibilit que lalignement de ces 2 aa reprsente correctement une homologie est 10 fois moins probable quun alignement par chance des ces 2 aa.


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

PAM 250


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

PAM10


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

60% identit score=23

hsrbp, 136 CRLLNLDGTC

btlact, 3 CLLLALALTC

* ** * **

PAM40

vs

24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7%

hsrbp, 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV

btlact, 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN

* **** * * * * ** *

hsrbp, 86 --CADMVGTFTDTEDPAKFKM

btlact, 80 GECAQKKIIAEKTKIPAVFKI

** * ** **

PAM250


Quelle matrice choisir

Quelle matrice choisir ?

Rat vs souris

Rat vs bactrie

PAM vs BLOSSUM


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

BLOSUM Matrices

Bases sur des alignements locaux

BLOSUM : blocks substitution matrix.

Expl: BLOSUM62 est obtenu en groupant

les squences qui ont 62% identit ou plus.


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

BLOSUM Matrices

100

100

100

collapse

collapse

62

62

62

collapse

Percent amino acid identity

30

30

30

BLOSUM80

BLOSUM62

BLOSUM30


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

BLOSUM Matrices

Toutes les matrices BLOSSUM sont bases sur des

alignements observs;

Aucune nest extrapole

La banque BLOCKS database contient des milliers

dalignements

BLOSUM62 est souvent la matrice de dfaut dans BLAST


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

BLOSSUM62

Les scores sont plus faibles 2 x logbase2(ratio vraisemblance)


Limites de fiabilit

Limites de fiabilit

Pourcent identit

Differences par 100 residus (PAM)

15% identit, un ne reconnat plus dhomologie


Banques de donn es indicateurs d volution et de sp ciation alignement des s quences

PAM1, 2 protines sont identiques 99%

PAM10.7 : 10 differences par 100 residus

PAM80 : 50 diffrences

PAM250 : 80 differences

  • 2 protines avec 50% didentit peuvent avoir subi

  • 80 changements par 100 rsidus.

  • Nimporte quelle

  • Mutation peut tre rversible


  • Login