Bio informatique appliqu e concepts et matrices des substitutions
This presentation is the property of its rightful owner.
Sponsored Links
1 / 70

Bio-informatique appliquée Concepts et matrices des substitutions PowerPoint PPT Presentation


  • 59 Views
  • Uploaded on
  • Presentation posted in: General

Bio-informatique appliquée Concepts et matrices des substitutions. Emese Meglécz [email protected] Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: http://jacques.van-helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web_course/BI4U2/.

Download Presentation

Bio-informatique appliquée Concepts et matrices des substitutions

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Bio informatique appliqu e concepts et matrices des substitutions

Bio-informatique appliquéeConcepts et matrices des substitutions

Emese Meglécz

[email protected]

Groupe Bureau Virtuel: AMU_BI4U2_bioinfo

TDs et cours de Jacques van Helden:

http://jacques.van-helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web_course/BI4U2/

Cours basé sur les cours de Céline Brochier-Armanet et Jacques van Helden


Bio informatique appliqu e concepts et matrices des substitutions

Contenu du cours

  • Modèles évolutifs

    • Mutations, duplications, divergence

    • Homologie, orthologie, paralogie, etc …

  • Alignements de paires de séquences

    • Matrices de substitutions

    • Dot plots (dottup, dotmatcher)

    • Alignement par glissement

    • Alignement avec indels

      • Global (Needleman-Wunsch)

      • Local (Smith-Waterman)

    • Recherche de similarités dans les bases de données (Fasta, BLAST)

  • Alignements multiples (ClustalX)

  • Identification de motifs dans les séquences


Bio informatique appliqu e concepts et matrices des substitutions

Similarité

% Identité « identities »:

Proportion des aa identiques entre les séquences

% Similarité « positives »:

Proportion des aa similaires entre les séquences

Identities = 14/26 (54%),

Positives = 15/26 (58%),

VCGMWLDGDIAAVDMFTHVEIGDDEV

V G W+ GDI MFTH DD EV

VAGIWVAGDIRGGPMFTHTAYDDFEV


Bio informatique appliqu e concepts et matrices des substitutions

Similarité

  • % Identité ou similarité maximale:100%

  • % Identité entre deux séquences nucléiques aléatoires ?


Bio informatique appliqu e concepts et matrices des substitutions

Similarité

  • % Identité ou similarité maximale:100%

  • % Identité entre deux séquences nucléiques aléatoires ?

    4 bases => % Identité attendu entre séquences aléatoires: ¼


Bio informatique appliqu e concepts et matrices des substitutions

Similarité

  • % Identité ou similarité maximale:100%

  • % Identité entre deux séquences protéiques aléatoires ?


Bio informatique appliqu e concepts et matrices des substitutions

Similarité

  • % Identité ou similarité maximale:100%

  • % Identité entre deux séquences protéiques aléatoires ?

    20 aa=> % Identité attendu entre séquences aléatoires: 1/20


Bio informatique appliqu e concepts et matrices des substitutions

Similarité, homologie, analogie

  • La similarité entre deux séquences peut s’interpréter par deux hypothèses alternatives:

    • Homologie: la ressemblance s’explique par le fait que les deux séquences divergent d’un ancêtre commun.

    • Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.


Bio informatique appliqu e concepts et matrices des substitutions

Homologie

  • Deux séquences sont dites homologues si elles possèdent un ancêtre commun

  • L’existence d’un ancêtre commun est inférée à partir de la similarité

Ancêtre commun

Événement évolutif

(spéciation, duplication)

séquence1

séquence2


Bio informatique appliqu e concepts et matrices des substitutions

Homologie ≠ Similarité

  • L’homologie n’est pas quantifiable

    • Deux séquences sont homologues (possèdent des caractères communs parce qu’elles dérivent d’un ancêtre commun) ou elles ne le sont pas.

    • Raisonnement binaire

  • La similarité est quantifiable

    • On peut dire de deux séquences qu’elles sont similaires à 50% ou 75%

      30 % d’identité sur une longueur de 100 AA

      homologie est probable entre les séquences


Bio informatique appliqu e concepts et matrices des substitutions

Duplication et spéciation

time

time

a

ancestral

sequence

a

ancestral

species

duplication

speciation

divergence

divergence

a1

a2

now

b

c

now

  • Deux séquences qui descendent d’un ancêtre commun divergent.

  • La divergence peut résulter d’une duplication ou d’une spéciation.

  • Evénements de mutations: substitutions, délétions, insertions.


Bio informatique appliqu e concepts et matrices des substitutions

Homologie

  • Inférence

    • Avant d’affirmer que deux séquences sont homologues, nous devrions pouvoir retracer leur histoire jusqu’à leur ancêtre commun.

    • Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie.

    • Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités).

    • L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.


Bio informatique appliqu e concepts et matrices des substitutions

Homologie ≠ Similarité

La formulation correcte :

  • on observe un certain niveau de similarité entre deux séquences (% identité, % similarité).

  • Sur cette base, on évalue des scénarios évolutifs: cette similarité peut provenir

    • d’une évolution convergente (analogie)

    • d’une évolution divergente à partir d’un ancêtre commun (homologie)

    • Similarité due au hasard

  • Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.


Bio informatique appliqu e concepts et matrices des substitutions

Similarité sans homologie

  • Convergence ou simple hasard pour de courtes séquences (quelques résidus)

Score = 32.0 bits (68), Expect = 9.5 Identities = 14/26 (54%),

Positives = 14/26 (54%), Gaps = 7/26 (26%)

Query 2 VCGMWRDGDI---EMFTH---DD-EV 20

V G W GDI MFTH DD EV

Sbjct 304 VAGIWVAGDIRGGPMFTHTAYDDFEV 329


Bio informatique appliqu e concepts et matrices des substitutions

Similarité sans homologie

  • Existence de régions de faible complexité (régions riches en quelques aa.,

  • Cas de la fibroïne [GSGAGA]n)


Bio informatique appliqu e concepts et matrices des substitutions

Homologie sans Similarité

  • Globine gamma humaine vs myoglobine humaine

GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links)

Score = 48.5 bits (114), Expect = 6e-06,

Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%)

Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85

GE L RL +P T FD F +L S + + +K HG VLT+LG +K +

Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68

Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSR 145

L++ H K + + + + ++ VL +F + Q + K + ++S

Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASN 128

Query 146 Y 146

Y

Sbjct 129 Y 129


Bio informatique appliqu e concepts et matrices des substitutions

Homologie sans Similarité

Wajcmana et Kiger, 2002


Bio informatique appliqu e concepts et matrices des substitutions

Homologie/analogie

  • Analogie: relation entre deux caractères qui se sont développés de manière convergente à partir d’ancêtres différents.

  • Homologie: L'homologie est la relation entre les deux caractères qui sont descendus, le plus souvent avec une divergence, d'un caractère ancestral commun.

  • Cenancestor: l'ancêtre commun le plus récent des taxons d’intérêt. MRCA (Most Recent Common Ancestor)

  • Fitch, W. M. (2000). Homology a personal view on some of the problems. Trends Genet 16, 227-31.


Bio informatique appliqu e concepts et matrices des substitutions

Les catégories d’homologies

  • Orthologie:paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation

  • La fonction est souvent conservée au cours de l’évolution des orthologues

  • A, B et C sont orthologues

Spéciations

SeqA SeqB SeqC

Chat Souris Rat

Myoglobines


Bio informatique appliqu e concepts et matrices des substitutions

Les catégories d’homologies

  • Paralogie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique

  • Les fonctions d’un ou de plusieurs paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction)

  • B et C sont paralogues

  • A et C, A et B sont orthologues

Spéciation

Duplication

SeqA SeqB SeqC

Insuline Insuline I Insuline II

Chat Souris


Bio informatique appliqu e concepts et matrices des substitutions

Les catégories d’homologies

  • Xénologie: relation entre les deux gènes homologues dont l'histoire, depuis leur ancêtre commun, implique le transfert du matériel génétique interspécifiques (horizontal)

Ancêtre de B

Ancêtre de A

Espèce AEspèce B


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

  • Définissez le type d’homologie/analogies entre chaque paire des gènes.

    • Pparalogue

    • Oorthologue

    • Xxénologue

    • Aanalogue

Orthologues:

gènes homologues issus de la spéciation

Paralogues:

gènes homologues issus d'un phénomène de duplication

Xénologue:

Gène ayant été acquis par transfert horizontal


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

  • Définissez le type d’homologie/analogie entre chaque paire des gènes.

    • Pparalogue

    • Oorthologue

    • Xxénologue

    • Aanalogue

Orthologues:

gènes homologues issus de la spéciation

Paralogues:

gènes homologues issus d'un phénomène de duplication

Xénologue:

Gène ayant été acquis par transfert horizontal


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

  • Définissez le type d’homologie/analogie entre chaque paire des gènes.

    • Pparalogue

    • Oorthologue

    • Xxénologue

    • Aanalogue

Orthologues:

gènes homologues issus de la spéciation

Paralogues:

gènes homologues issus d'un phénomène de duplication

Xénologue:

Gène ayant été acquis par transfert horizontal


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

  • Orthologiepeutêtreune

  • relation 1 à N

    • A1 [orthologue]-> B1

    • A1 [orthologue]-> B2

  • L’orthologieestréciproque.

    • A1 <-[orthologue]-> B1

  • L’orthologien’est pas transitive

    • A1 <-[orthologue]-> B1

    • A1 <-[orthologue]-> B2

    • B1 <-[paralogue]-> B2


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

A1 AB1 B1 C1 B2 C2 C3

A, B, C représentent les espèces

2, 3, 3 les copies des gènes

Spéciation

Duplication


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

A1 AB1 B1 C1 B2 C2 C3

A1 C3 C2 B2 C1 AB1 B1

A, B, C représentent les espèces

1, 2, 3 les copies des gènes

Les deux arbres sont identiques

Spéciation

Duplication


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre

Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Seq1 Seq2 Seq3 Seq4

Espèce A Espèce B


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre

Seq1 et Seq2paralogues

Seq1 et Seq3orthologues

Seq1 et Seq4orthologues

Seq2 et Seq3orthologues

Seq2 et Seq4orthologues

Seq3 et Seq4paralogues

Spéciation

Duplications

Seq1 Seq2 Seq3 Seq4

Espèce A Espèce B


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre

Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Seq1 Seq2 Seq3 Seq4

Espèce A Espèce B Espèce A Espèce B


Bio informatique appliqu e concepts et matrices des substitutions

Exercise

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre

Seq1 et Seq2orthologues

Seq1 et Seq3paralogues

Seq1 et Seq4paralogues

Seq2 et Seq3paralogues

Seq2 et Seq4paralogues

Seq3 et Seq4orthologues

Duplication

Spéciations

Seq1 Seq2 Seq3 Seq4

Espèce A Espèce B Espèce A Espèce B


Bio informatique appliqu e concepts et matrices des substitutions

Alignement

Alignez les séquences suivantes:

Seq1 GTTACGA

Seq2 GTTGGA


Bio informatique appliqu e concepts et matrices des substitutions

Alignement

Seq1 GTTACGA

Seq2 GTTGGA

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Alignement 1

Alignement 2


Bio informatique appliqu e concepts et matrices des substitutions

Alignement des séquences

Identification des positions homologues dans les séquences nucléotidique ou protéiques

maximiser leurs similarités

Alignement de

2 séquences

Alignement par paire:

Alignement multiple:

AACTGCATTGTA

AA-TGCAT-GTA

AACTCCATTGTA

AA-TGAATT-TA

** * ** **

AACTGCATTGTA

AA-TGCAT-GTA

** ***** ***


Bio informatique appliqu e concepts et matrices des substitutions

Alignement global et local

A2 C2 A’2 B2

A1 B1 A’1 C1

Seq1

Seq2


Bio informatique appliqu e concepts et matrices des substitutions

Alignement global et local

A2 C2 A’2 B2

A1 B1 A’1 C1

Seq1

Seq2

Alignement global

A1 B1 A’1 C1

Seq1

Seq2

A2 C2 A’2 B2


Bio informatique appliqu e concepts et matrices des substitutions

Alignement global et local

A2 C2 A’2 B2

A1 B1 A’1 C1

Seq1

Seq2

Alignement local

Alignement global

A1 B1 A’1 C1

A1

A2

B1

B2

A’1

A’2

C1

C2

Seq1

A’1

A2

Seq2

A2 C2 A’2 B2

A1

A’2


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions (matrice des scores)

Score: valeur numérique de chaque événement

Score de substitution (Y): 0

Score d’identité (X):1

Pénalité de gap : -1


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Pénalité de gap : -1

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Calculez les scores !


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Pénalité de gap : -1

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Score: 5 -1 = 4

Score: 5 -1 = 4


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Pénalité de gap : -10

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Calculez les scores !


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Le valeur de score de l’alignement dépend de matrice de score utilisé

Pénalité de gap : -10

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Score: (5 x 5) – (1 x 4) –(1 x 10) = 11

Score: (5 x 5) – (1 x 4) –(1 x 10) = 11


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Pénalité de gap : -10

Seq1 GTTACGAGTTACGA

Seq2 GTT-GGAGTT-GGA

*** ***** **

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Calculez les scores

et les identités !


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Le valeur de score de l’alignement dépend de longueur de l’alignement

Pénalité de gap : -10

Seq1 GTTACGAGTTACGA

Seq2 GTT-GGAGTT-GGA

*** ***** **

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Score: (10 x 5) – (2 x 4) –(2 x 10) = 22

Identité : 5/7

Score: (5 x 5) – (1 x 4) –(1 x 10) = 11

Identité : 5/7


Bio informatique appliqu e concepts et matrices des substitutions

Matrices des substitutions

Le score de l’alignement dépend

  • Des matrices de substitutions => impossible de comparer des alignements faits avec des matrices différentes

  • Longueur de l’alignement

    Les scores servent à optimiser un alignement, une matrice de scores et une pénalité des gaps donnés


Bio informatique appliqu e concepts et matrices des substitutions

Modèle d’évolutionKimura à deux paramètres

A G

C T

Modèle d’évolution: intégration des paramètres venant des observations biologiques

Transition (Y)

Transversion (Z)

Score d’identité (X):1

Score de transition (Y):0,5

Score de transversion (Z) :0

Pénalité de gap : -1

Purines

Pyrimidines


Bio informatique appliqu e concepts et matrices des substitutions

Modèle d’évolution; Kimura à deux paramètres

A G

C T

Pénalité de gap : -1

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Calculez les scores !


Bio informatique appliqu e concepts et matrices des substitutions

Modèle d’évolution

A G

C T

Pénalité de gap : -1

Seq1 GTTACGA

Seq2 GTT-GGA

*** **

Seq1 GTTACGA

Seq2 GTTG-GA

*** **

Score: 5 - 1+ 0 = 4

Score: 5 - 1+ 0,5 = 4,5


Bio informatique appliqu e concepts et matrices des substitutions

Pénalité des indels

Alignez les séquences

suivantes et calculez

les scores:

Seq1 GTTGAGGCGTGGAAA

Seq2 GTTGCGTGGAAA

Pénalité de gap : -1


Bio informatique appliqu e concepts et matrices des substitutions

Pénalité des indels

Alignement 1

(12 x 1) – (3 x 1) = 9

Seq1 GTTGAGGCGTGGAAA

Seq2 GTT---GCGTGGAAA

*** *********

Seq1 GTTGAGGCGTGGAAA

Seq2 GTT--G-CGTGGAAA

*** * ********

Seq1 GTTGAGGCGTGGAAA

Seq2 GTTG---CGTGGAAA

**** ********

Alignement 2

(12 x 1) – (3 x 1) = 9

Alignement 3

(12 x 1) – (3 x 1) = 9

Pénalité de gap : -1


Bio informatique appliqu e concepts et matrices des substitutions

Pénalité des indels

Seq1 GTTGAGGCGTGGAAA

Seq2 GTT---GCGTGGAAA

*** *********

Seq1 GTTGAGGCGTGGAAA

Seq2 GTT--G-CGTGGAAA

*** * ********

Calculez les scores !

Pénalité d’ouverture de gap : -3

Pénalité d’extension de gap :-1


Bio informatique appliqu e concepts et matrices des substitutions

Pénalité des indels

Seq1 GTTGAGGCGTGGAAA

Seq2 GTT---GCGTGGAAA

*** *********

Seq1 GTTGAGGCGTGGAAA

Seq2 GTT--G-CGTGGAAA

*** * ********

Alignement 1

(12x1) – 3 – (3x1) = 6

Alignement 2

(12x1) – (2x3) – (3x1) = 3

Pénalité d’ouverture de gap : -3

Pénalité d’extension de gap :-1


Bio informatique appliqu e concepts et matrices des substitutions

Alignement

Les mutations sont rares

Choisir l’hypothèse qui implique le moins de changements évolutifs ET

Les changements les plus probables


Bio informatique appliqu e concepts et matrices des substitutions

Fréquence des mutations observés

  • Généralités:

    • f (mutations) > f (mutations observées)

    • f (substitutions) > f (indel) (contre exemple: microsatellites)

    • f (transitions) > f (transversion)

    • Un évènement d’insertion/délétion peut impliquer plusieurs résidus


Bio informatique appliqu e concepts et matrices des substitutions

Évolution des séquences protéiques (1)

Plus difficile à modéliser que celui des nucléotides:

  • Un acide aminé peut être remplacé par un autre de différentes façons (code génétique).

    • Phe (UUU, UUC) => Leu(UUA, UUG, CUU, CUC, CUA, CUG)

  • Le nombre de substitutions requises pour passer d’un acide aminé à un autre diffère.

    • Asn (AAU, AAC) => Trp (UGG) 3 mutations; Phe => Leu 1ou 2 mutations

  • La probabilité des substitutions au niveau nucléotidique diffère

    • P(AAU,Asn|GAU,Asp) > P(AAU,Asn|CAU,His)

      P(Transition) > P(Transversion)


Bio informatique appliqu e concepts et matrices des substitutions

Évolution des séquences protéiques (2)

A G

C

S

T

I L

V

Y

W

N

Q

F

M

H

K

R

D

E

  • Certaines substitutions peuvent avoir plus ou moins d’effet sur la fonction des protéines.

    • Acide aminés polaires, apolaires, basique, acide, STOP

Petit

OH

Polaire

P

Hydrophile

Aliphatique

Hydrophobe

NH2

Aromatique

Chargé

Positif

Négatif


Bio informatique appliqu e concepts et matrices des substitutions

Modèles d’évolution des séquence protéiques

Mesure des fréquences de substitution dans des alignements de protéines homologues :

  • Matrices basées sur des arbres construits en utilisant le maximum de parcimonie :

    • PAM (Dayhoff et al., 1978).

    • JTT (Jones et al., 1992).

  • Matrices basées sur des arbres construits en utilisant le maximum de vraisemblance :

    • WAG (Whelan et Goldman, 2001).

  • Matrices basées sur des comparaisons par paires utilisant des alignements locaux :

    • BLOSUM (Henikoff et Henikoff, 1992).


Bio informatique appliqu e concepts et matrices des substitutions

Construction d’une matrice de substitution

VCGM

VGVM

  • Aligner des séquences

  • Compter des occurrences de chaque paire d’aa dans les alignements (y compris les identités)

  • Changer les nombres des occurrences en fréquences


Bio informatique appliqu e concepts et matrices des substitutions

Construction d’une matrice de substitution

VCGM

VGVM

  • Calculer la fréquence de chaque aa.

  • fV= 0,375, fC= 0,125, fG= 0,25, fM= 0,25

  • Transformer les fréquences en lod- scores (lod-score = "log-odds" = "log des chances"


Bio informatique appliqu e concepts et matrices des substitutions

Matrice PAM

  • Chaque case représente la probabilité de voir ces deux résidus remplacés l'un par l'autre dans un alignement. (matrice lod-score, de "log-odds" ou "log des chances")

  • Valeurs négatives => On observe le remplacement moins souvent qu’on pourrait l’attendre par hasard.

  • Valeurs positives => On observe le remplacement plus souvent qu’on pourrait l’attendre par hasard.

  • fij est la fréquence de remplacement du résidu i par j

  • fi et fj sont les fréquences respectives des résidus i et j


Bio informatique appliqu e concepts et matrices des substitutions

Matrices PAM et JTT

  • PAM (Point Accepted Mutation) :

    • 71 familles de gènes nucléaires correspondant à 1300 séquences :

      • Séquences peu divergentes entre elles (identité ≥ 85 % entre chaque paire possible dans une famille).

    • Alignements globaux

  • JTT (Jones, Taylor and Thornton) :

    • Construites à partir de 59 190 mutations ponctuelles observées dans 16 300 protéines.

    • Alignements globaux.


Bio informatique appliqu e concepts et matrices des substitutions

Matrice de PAM

  • La table est valable pour une certaine distance évolutive, car les fréquences des substitutions dépendent de taux de divergence entre les séquences.

  • Margaret Dayhoff a calculé une série de matrices; chacune correspondant à un taux de divergence différent

    PAM0011% substitution per position en moyenne

    PAM05050 % substitution per position en moyenne

    PAM250250% substitution per position en moyenne (note: une position peut muter plusieurs fois)

  • La matrice de substitution devrait être choisie en fonction des divergences entre les séquences


Bio informatique appliqu e concepts et matrices des substitutions

Matrice de PAM250

S tryptophane/cystéine = -8

S tyrosine/phénylalanine = 7

S tryptophane/tryptophane = 17


Bio informatique appliqu e concepts et matrices des substitutions

Matrice de PAM250 (Hinton diagram)

  • Carré jaunes => valeurs positives (mutations acceptés)

  • Carrés rouges=> valeurs négatives (mutations rares).

  • Les tailles de carrés sont proportionnelles aux valeurs absolues des scores


Bio informatique appliqu e concepts et matrices des substitutions

Matrice de BLOSUM

BLOSUM (Blocks Substitution Matrices) :

  • Utilisation de ~2000 domaines conservés provenant de 500 familles de protéines.

  • Comparaisons effectuées dans les domaines alignés (banque BLOCKS).

  • Matrices créées à partir de domaines comprenant des séquences ± divergentes :

    • Toutes les paires ayant servi a construire une matrice BLOSUMk ont une identité ≥ à k %.

    • Matrices plus adaptées pour des protéines distantes du point de vue évolutif.


Bio informatique appliqu e concepts et matrices des substitutions

Matrice de BLOSUM62


Bio informatique appliqu e concepts et matrices des substitutions

Choix d’une matrice

  • Pas de matrice idéale.

    • BLOSUM globalement meilleures que PAM.

  • Degré de similarité des séquences.

  • Il est recommandé d’expérimenter !


Bio informatique appliqu e concepts et matrices des substitutions

Score d’un alignement

Go : Pénalité d’ouverture de gap (-10)

Ge: Pénalité d’extension de gap (-1)

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

R L A S V E T D M P - - - - - L T L R Q H

. | . | : : | . : . go gegegege . . | . . |

T L T S L Q T T L K N L K E M A H L G T H

S -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7


Bio informatique appliqu e concepts et matrices des substitutions

Références clés pour les matrices de substitutions

  • Matrices de substitution

    • PAM series

      • Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure 5, 345--352.

    • BLOSUM substitution matrices

      • Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89, 10915-9.

    • Gonnet matrices, built by an iterative procedure

      • Gonnet, G. H., Cohen, M. A. & Benner, S. A. (1992). Exhaustive matching of the entire protein sequence database. Science 256, 1443-5. 1.


Bibliographie

Bibliographie

  • Tagu et Riesler: Bio-informatique. Principes d’utilisation des outils, 2010, Editions Quae (Code BU: 570.11 BIO)

  • W. Mount. Bioinformatics: Sequence and Genome Analysis. (2004) pp. 692. http://www.bioinformaticsonline.org/ (Code BU: 572.86 MOU)

  • Perrière et Brochier-Armanet: Concepts et méthodes en phylogénie moléculaire, 2010, Springer (BU:570.11 PER)

    Cours basée sur les cours de Céline Brochier-Armanet et Jacques van Helden


  • Login