1 / 54

Comparaisons de séquences

Comparaisons de séquences. 1. Approche graphique (matrice de points) dotter (comparaison de mots) dotmatcher (comparaison de fenetres pondérées) 2. Utilisation de matrices de distances Pondération des remplacements selon divers critères

maura
Download Presentation

Comparaisons de séquences

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comparaisons de séquences 1. Approche graphique (matrice de points) dotter (comparaison de mots) dotmatcher (comparaison de fenetres pondérées) 2. Utilisation de matrices de distances Pondération des remplacements selon divers critères 3. Similitudes par correspondance caractère à caractère fenêtres par glissement (localement intéressant) 4. Alignement : Approche matricielle incluant les insertions Algorithme de Needlemann-Wunsch-Sellers Programmes needle (EMBOSS), align (Fasta) : alignements optimaux globaux Programmes water (EMBOSS), lalign , ssearch (Fasta) : algorithmes optimaux locaux 5. Evaluation de la signification biologique des alignements prdf, prss (fasta)

  2. 6. Amélioration de la rapidité Précodage en mots et limitation des recherches d'insertions fasta tfasta , lfasta (Pearson) 7. Programmes de la série BLAST : recherche de mots d’une séquence sans les banques et extensions selon options 7. Alignements hétérogènes Alignements d'une séquence protéique avec une séquence nucléique (sur ses 6 phases indépendantes (tfasta) ou en tenant comptes de l'optimisation sur les différentes phases : tfastx ) tfasta a été abandonné idem avec la série BLAST 8. Alignements multiples clustalw, muscle t-coffee, multalin ….

  3. Approche graphique (Visualisation) chkhba / dukhbadwp dotmatcher (fenetre) Calcul s un score (identité ou pondéré) le long des fenêtres glissantes

  4. Recherches de mots communs d’une longueur >= k • Optimiser les logueurs de fenêtres ou de mots • La comparaison entre proétines ne se fait en général pas au dela de 15 à 20 AA • (Plutot 7 a 11)

  5. Matrices de substitution Matrice unitaire A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 Une matrice de substitution est utilisée pour pondérer le remplacement d'une lettre par une autre à une position donnée (ceci permet de prendre en compte le taux variable de mutabilité apparente d'un résidu AA. La première (et plus ancienne matrice) est la série des PAM, déduites de l'observation des variabilités en AA dans des familles bien connues de protéines, avec l'observation de 1572 points de mutation dans 34 familles de protéines. (Dayhoff, 1978). Une PAM1 est la matrice qui correspond à des évènements mutationnels qui décrivent la quantité d'évolution qui changera en moyenne 1% des AA. Elle est définie par : S fi (1-Mii) =0.01 (avec fi la fréquences des AA et Mii la probabilité qu'un AA donné ne change pas). PAM2, 3 .. 100 et 250 sont obtenus par produit matriciel successif. Une PAM petite correspond à peu d'évènements mutationnels (et sera plus adaptée à comparer des séquences très voisines), tandis qu'une PAM élevée sera plus appliquée à la comparaison de séquences plus éloignées. Une analyse statistique a montré que PAM 250 est un compromis optimal pour la majorité des séquences . Les éléments de la matrice donnent la probabilité qu'un AA (colonne j) a muté en AA (colonne i) après un temps donné (par exemple après 2 PAM (Percentage of Acceptable Mutation per 108 years)

  6. PAM matrix (déduite des familles de séquences complètements alignées) Matrice 20x20 PAM 250 C S T P A G N D E Q H R K M I L V F Y W C 12 S 0 2 T -2 1 3 diagonale positive : conservation P -3 1 0 6 le reste : variation pour un remplacement A -2 1 1 1 2 G -3 1 0 -1 1 5 N -4 1 0 -1 0 0 2 D -5 0 0 -1 0 1 2 4 E -5 0 0 -1 0 0 1 3 4 Q -5 -1 -1 0 0 -1 1 2 2 4 H -3 -1 -1 0 -1 -2 2 1 1 3 6 R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6 V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10 W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17

  7. blosum62 (déduite des "blocks" de séquences alignés) Contrairement aux PAM (déduites de l'emsemble des séquences alignées) les matrices BLOSUM sont déduites des segments locaux, regroupés par famille jusu'à un certain seuil (BLOSUM80 corespond à des segments similaires à 80%). La matrice BLOSUM62 est celle qui est utilisée dans BLAST par défaut. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

  8. Principes de l'alignement optimal 2 séquences à comparer A T G T A A T G C A T G T A T G T G A A T Alignement optimum par glissement A T G T A A T G C A T G | | | | | score 5 T A T G T G A A T A T G T A A T G C A T G | | | | score 4 T A T G T G A A T Alignement optimum avec insertion A T G T - A A T G C A T G | | | | | | | score 7 T A T G T G A A T Score d'identité : match +1 Pénalité d'insertion : gap -1 Pénalité d'insertion multiple : gap -1 score 6 La comparaison locale de 2 séquences (acides nucléiques ou protéines) repose sur l'hypothèse de microévolution par mutations ponctuelles, remplacement d'un nucléotide par un autre, suppression ou insertion). Il est naturel de postuler un score positif pour les identités (ou les résidus similaires) et une pénalité négative pour les insertions (sur l'une ou l'autre des 2 séquences) (jamais de déletion). La valeur à attribuer aux pénalités d'insertion est néanmoins un problème majeur (elle n'est pas bien modélisée) . Il est bon de prendre les valeurs par défaut des programmes et de les faire varier autour pour évaluer la robustesse de l'alignement. Deux notions supplémentaires seront ajoutées : • Utilisation d'une matrice de pondération (score) entre lettres. • Distinction d'une pénalité d'insertion d'ouverture et d'une pénalité d'extension de l'insertion (modulation du regroupement des insertions).

  9. Alignements : 2 aspects de la programmation dynamique (avec insertions permettant le calcul d'un score optimal) (Neddleman et Wunsch) 1) Alignement global optimal Alignement avec contraintes sur les extrémités (gap (GCG), needle (EMBOSS) n'est intéressant que si les séquences sont semblables et de longueur voisine) 1 n1 seq1 ATTTGCGAGCGTCGGTAGCGAG-GATGTACCTACA-GTCACAAATCTTT ** ******** ********** ************ ** ***** *** seq2 ATCTGCGAGCG-CGGTAGCGAGGGATGTACCTACACGT-ACAAA--TTT 1 m1 2) Alignements local optimal seules les parties suffisamment similaires sont alignées :bestfit (GCG), water n1 n2 seq1 ....ATTTGCGAGCGTCGGTAGCGAG-GATGTACCTACA-GTCACAAATCTTT...... ** ******** ********** ************ ** ***** *** seq2 ATCTGCGAGCG-CGGTAGCGAGGGATGTACCTACACGT-ACAAA--TTT....... m1 m2

  10. Test statistique d un alignement entre 2 séquences : PRSS sur la base d'une randomisation d'une des séquences et de N alignements SW Sequence 1 : [SWISSPROT] SYH_ECOLI DE Histidyl-tRNA synthetase (EC 6.1.1.21) (Histidine--tRNA ligase) DE (HisRS). DE Histidyl-tRNA synthetase (EC 6.1.1.21) (Histidine--tRNA ligase) DE (HisRS). Sequence 2 : [SWISSPROT] SYP_HELPY DE Prolyl-tRNA synthetase (EC 6.1.1.15) (Proline--tRNA ligase) (PRORS). Matrice utilisée : BLOSUM50 PRSS compares a query sequence to shuffled sequences using the Smith-Waterman algorithm version 3.4t06 Aug 18, 2001 Please cite: W.R. Pearson (1996) Meth. Enzymol. 266:227-258 opt E() < 20 0 0: 22 0 0: one = represents 1 library sequences …. 32 4 1:*=== 34 3 3:==* 36 8 6:=====*== 38 6 10:====== * 40 18 14:=============*==== 42 16 17:================* 44 17 18:=================* 46 18 19:==================* 48 22 18:=================*==== 50 9 16:========= * 52 21 14:=============*======= 54 5 12:===== * 56 17 10:=========*======= 58 5 8:===== * …. 80 2 1:*= 82 0 0: 84 1 0:= .. >120 0 0:

  11. Algorithmes d'homologie matricielle (Programmation dynamique - Needleman et Wunsch) Construction de la matrice d'homologie : Soient deux séquences de longueur M et N : A T C G C C G T G C G T C A A C G A T T G C C G A T G C C G T A A C G définition d'une distance d entre 2 caractères : (critère simple de Needleman et Wunsch) d(Ai,Bj) = 1 si Ai=Bj d(Ai,Bj) = 0 si Ai≠Bj Construction : V(i,0) = V(0,j) = 0 V(i,j)= MAX( (V(h,k) + d(Ai,Bj) h<i k<j On a alors v = MAX ( V(h,k)) h<N k<M A T C G C C G T G C C G T C A A C G 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 A 01 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 T 0 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 T 0 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 G 0 1 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 C 0 1 2 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 C 0 1 2 3 3 4 5 5 5 5 6 6 6 6 6 6 6 6 6 G 0 1 2 3 4 4 5 6 6 6 6 6 7 7 7 7 7 7 7 A 0 1 2 3 4 4 5 6 6 6 6 6 7 7 7 8 8 8 8 T 0 1 2 3 4 4 5 6 7 7 7 7 8 8 8 8 8 8 8 G 0 1 2 3 4 4 5 6 7 8 8 8 8 8 8 8 8 8 9 C 0 1 2 3 4 5 5 6 7 8 9 9 9 9 9 9 9 9 9 C 0 1 2 3 4 5 6 6 7 8 9 10 10 10 10 10 10 10 10 G 0 1 2 3 4 5 6 7 7 8 9 10 11 11 11 11 11 11 11 T 0 1 2 3 4 5 6 7 8 8 9 10 11 1212 12 12 12 12 A 0 1 2 3 4 5 6 7 8 8 9 10 11 12 12 13 13 13 13 A 0 1 2 3 4 5 6 7 8 8 9 10 11 12 12 13 14 14 14 C 0 1 2 3 4 5 6 7 8 8 9 10 11 12 12 13 14 15 15 G 0 1 2 3 4 5 6 7 8 9 9 10 11 12 12 13 14 15 16 L'homologie est déterminée par remontée depuis la valeur la plus forte : A T C G C C G - T G C C G T C A A C G * * * * * * * * * * * * * * * * A T T G C C G A T G C C G T - A A C G

  12. Alignement local suboptimal : lalign lalign 1.6b [Nov, 1991] compares two sequences X. Huang and W. Miller (1991) Adv. Appl. Math. 12:373-381 Comparison of: (A) zmrsec - 677 aa (B) SYECMT 649 aa using protein matrix 29.8% identity in 688 aa overlap; score: 834 10 20 30 40 50 60 SYECMT KKILVTCALPYANGSIHLGHMLEHIQADVWVRYQRMRGHEVNFICADDAHGTPIMLKAQQ :.. .: .. :.....:.:: . ...:. .::.:.::..: .. ..:.:: : :::. zmrsbs KTFYLTTPIYYPSDKLHIGHAYTTVAGDAMARYKRLRGYDVMYLTGTDEHGQKIQRKAQE 10 20 30 40 50 60 70 80 90 100 110 120 SYECMT LGITPEQMIGEMSQEHQTDFAGFNISYDNYHSTHSEENRQLSELIYSRLKENGFIKNRTI :.::.: .... .. :. . ..::::.. .: : .... : :..:: :.: zmrsbs KGVTPQQYVDDIVAGIQELWRKLDISYDDFIRTTQERHKKIVEKIFARLVEQG------- 70 80 90 100 110 ……………. 310 320 330 340 350 360 SYECMT HSLFWPAMLEGSNFRKPSNLFVHGYVTVNGAKMSKSRGTFIKASTWLNHFDADSLRYYYT :...:: :: . ... :...: ::.. ....:::::.:. ... ..... :.:::: zmrsbs HTIYWPIMLMALGLPLPKKVFGHGWLLMKDGKMSKSKGNVVDPVMIIDRYGLDALRYYLL 270 280 290 300 310 320 Le score est une valeur absolue (proportionnel à la longueur de la séquence). Il dépend aussi des choix de matrice de remplacement. Le seul programme à donner plusieurs alignments sub-optimaux

  13. Test statistique d un alignement entre 2 séquences sur la base d'une randomisation d'une des séquences et de N alignements SW Sequence 1 : [SWISSPROT] SYH_ECOLI DE Histidyl-tRNA synthetase (EC 6.1.1.21) Sequence 2 : [SWISSPROT] SYP_HELPY DE Prolyl-tRNA synthetase (EC 6.1.1.15) Matrice utilisée : BLOSUM50 PRSS compares a query sequence to shuffled sequences using the Smith-Waterman algorithm version 3.4t06 Aug 18, 2001 Please cite: W.R. Pearson (1996) Meth. Enzymol. 266:227-258 opt E() < 20 0 0: 22 0 0: one = represents 1 library sequences …. 32 4 1:*=== 34 3 3:==* 36 8 6:=====*== 38 6 10:====== * 40 18 14:=============*==== 42 16 17:================* 44 17 18:=================* 46 18 19:==================* 48 22 18:=================*==== 50 9 16:========= * 52 21 14:=============*======= 78 1 1:* 80 2 1:*= 82 0 0: 84 1 0:= .. >120 0 0: 115400 residues in 200 sequences (shuffled) MLE statistics: Lambda= 0.1698; K=0.0205 Kolmogorov-Smirnov statistic: 0.0318 (N=25) at 48 Smith-Waterman (3.39 May 2001) function [BL50 matrix (15:-5)], open/ext: -10/-2 Scan time: 4.540 PRSS34 - 200 shuffles; uniform shuffle unshuffled s-w score: 123; bits(s=123|n_l=577): 35.7 p(123) < 4.27314e-06 For 200 sequences, a score >= 123 is expected 0.0008546 times

  14. Histogramme des scores pour les 200 alignements aléatoires ahemoglobine humaine (HAHU) 141 aa / myoglobine humaine (MYHU) 152 aa Smith-Waterman (3.39 May 2001) function [BL50 matrix (15:-5)], open/ext: -10/-2 30800 residues in 200 sequences (shuffled) MLE statistics: Lambda= 0.1785; K=0.03624 Kolmogorov-Smirnov statistic: 0.0515 (N=24) at 40 PRSS34 - 200 shuffles; uniform shuffle unshuffled s-w score: 180; bits(s=180|n_l=154): 51.1 p(180) < 8.79912e-12 For 200 sequences, a score >= 180 is expected 1.76e-09 times

  15. ribonuclease bovine (NRBO) 150 aa / lysozyme de poulet (LZCH) 147 aa 29400 residues in 200 sequences (shuffled) MLE statistics: Lambda= 0.1594; K=0.02291 Kolmogorov-Smirnov statistic: 0.0479 (N=22) at 42 PRSS34 - 200 shuffles; uniform shuffle unshuffled s-w score: 61; bits(s=61|n_l=147): 19.5 p(61) < 0.0297322 For 200 sequences, a score >= 61 is expected 5.946 times

  16. Alignements avec EMBOSS Needle (alignement global)

  17. Water (alignement local)

  18. Séquence / set de séquences • Recherche avec alignement (ktupl)fasta Nuc/Nuc Prot/Prot • tfasta Prot/Nuc 6 Phases • tfastx Prot/Nuc 6 Phases (inclus framesfhift • fastx Nuc 6 Phases/prot • tfastxy Prot/nuc 6 Phases (avec optim. phase ) • Recherche de peptides fastf, tfastf peptides/Prot ou /Nuc 6 p. • tfastx optimise les frameshifts entre les codons, tfasty optimise le frameshift à l'intérieur d'un codon (plus lent). • Recherche par HSP (Homology Segment Pair) • (sans alignement, nécessité d'un point d'ancrage de 11 bases/3 aa, 2x 14 bases dans BLAST2) • BLAST BLAST2 • Prot/Prot blastp blastp et PsiBlast • PhiBlast avec motifs, rpsblast • Nuc/Nuc blastn blastn • megablast • Prot/Nuc (6 phases) tblastn • Nuc (6 phases)/Prot blastx blastx • Nuc (6 phases)/Nuc (6 phases) tblastx tblastx • Nécessite de programmes de génération / indexation (BLAST BLAST2) • Prot setdb formatdb -p T • Nuc pressdb formatdb -p F

  19. Algorithm rapides

  20. RECHERCHES DE SIMILITUDES DANSLES BANQUES DE SEQUENCES 1. Recherche de motifs exacts Structuration inversée de la banque Accés par k-tuples de N bases ou de 3 aminoacides donnant immédiatement toutes les occurences dans toutes les séquences (RAMdb, Icatools ou ATLAS). Exemple récent de BLAT (http://genome.ucsc.edu) sur le génome humain. 2. Application des algorithmes d'alignement rapide aux recherches de similitudes en banques Ensemble des logiciels FASTA (Pearson) => détection des alignements locaux avec les meilleurs scores par rapport à l'échantillon comparé (banques ou sous-banques), mais 1 seul alignement ("le meilleur", mais non optimal) sur chaque séquence (avec insertions) programmes fasta, tfasta, fastx, tfastx, fasty, tfasty, fastf, tfastf document FASTA sur FASTA Programs at the U. of Virginia (fasta, lalign, ssearch) http://fasta.bioch.virginia.edu/fasta/home.htmltélécharger fasta sous telnet voir: man fasta man fastf 3. Recherches de paires de segments homologues : BLAST => détection des similitudes localessans insertion HSP (Homology Segment Pair ) avec les meilleurs scores par rapport à l'échantillon comparé (banques ou sous-banques) avec plusieurs similitudes si les scores sont bons. Très rapide, mais une limitation à un seuil minimum de score (filtrage sur les mots les plus informatifs). W longueur des mots par défaut = 11 (a.n.) et 3 (a.a) T score minimum des mots = 60 (a.n.) et 14 (a.a) versions BLAST 1.3 et 1.4 : chaine des programmes blastn, blastp, tblastn, blastx, tblastx

  21. Algorithme de FASTA : solution non exacte

  22. Lancement d un commande fasta enn local $ fasta using matrix file BLOSUM50 fasta 2.0x3 [Aug, 1995] searches a sequence data bank Please cite: W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448 test sequence file name: xecada Choose sequence library: P: GB Primate R: GB Rodent M: GB other Mammalian B: GB other verteBrate I: GB Invertebrate L: GB pLant sequence T: GB bacTerial K: GB structural RNA Enter library filename (e.g. dna.lib), letter (e.g. P) or a % followed by a list of letters (e.g. %PN): T ktup? (1 to 6) [6] 4 use optimized scores? [yes]: xecada: 840 nt vs GB bacTerial library searching /env/infobiogen/db/genbank/GBfasta/gbbct.seq 0 library Une commande ligne serait : babbage$fasta sequence1 database 4 >resultat & ou babbage$ fasta xfmtsec T 6 >result &

  23. babbage$ fasta xfmtsec T 6 >result & babbage$ more xecada.fas xecada, 840 nt vs T library one = represents 43 library sequences for inset = represents 1 library sequences z-opt E() < 20 1 0 := 22 0 0 : 24 4 0 := 26 3 1 :* 28 14 6 :* 30 66 35 :*= 32 363 135 :===*===== 34 521 367 :========*==== 36 1047 754 :=================*======= 38 1390 1247 :============================*==== 40 1907 1739 :========================================*==== 42 2287 2126 :=================================================*==== 44 2561 2345 :======================================================*===== 46 2131 2389 :================================================== * 48 2219 2287 :==================================================== * …. 72 192 211 :====* 74 150 165 :===* 76 135 128 :==*= 78 94 100 :==* 80 72 77 :=* 82 75 59 :=* 84 62 47 :=* 86 30 36 :* 88 19 28 :* 90 17 22 :* 92 14 17 :* :============== * 94 13 13 :* :============* 96 12 10 :* :=========*== 98 7 8 :* :=======* 100 1 6 :* := * 102 2 5 :* :== * 104 1 4 :* := * 106 1 3 :* := * 108 2 2 :* :=* 110 2 2 :* :=* 112 0 1 :* :* 114 0 1 :* :* 116 0 1 :* :* 118 0 1 :* :* >120 9 0 := *========= 47306782 residues in 25392 sequences statistics extrapolated from 20000 to 25429 sequences Kolmogorov-Smirnov statistic: 0.0553 (N= 29) at 44 results sorted and z-values calculated from opt score 15134 scores better than 46 saved, ktup: 4, fact: 4 DNA matrix, gap penalties: -16,-4 joining threshold: 65, optimization threshold: 50, width: 16 scan time: 0:03:12

  24. 47306782 residues in 25392 sequences statistics extrapolated from 20000 to 25429 sequences Kolmogorov-Smirnov statistic: 0.0553 (N= 29) at 44 results sorted and z-values calculated from opt score 15134 scores better than 46 saved, ktup: 4, fact: 4 DNA matrix, gap penalties: -16,-4 joining threshold: 65, optimization threshold: 50, width: 16 scan time: 0:03:12 The best scores are: initn init1 opt z-sc E(25429) gi|145455|gb|M76411|ECOCADABC E.coli cadA gene, 5 4200 4200 4200 4112.7 0 gi|145451|gb|M67452|ECOCADAB Escherichia coli lys 4200 4200 4200 4111.8 0 gi|1046368|gb|U37109|STU37109 Salmonella typhimur 2698 2698 2733 2669.7 0 gi|43438|emb|X03774|HALDC Hafnia alvei gene for l 2110 2110 2179 2126.4 0 gi|145338|gb|M93362|ECOARGDECA Escherichia coli a 203 149 378 354.0 1e-13 gi|555802|gb|U11816|LSU11816 Lactobacillus strain 206 134 333 309.5 3e-11 gi|1004063|gb|L45232|HEAHI0591 Haemophilus influe 142 97 327 305.9 6.8e-11 gi|806389|gb|M33766|ECOSPEC E.coli (clone pLC20-5 234 169 296 274.8 3.4e-09 gi|147330|gb|M64495|ECOPOTESPE E.coli ornithine d 214 214 289 264.0 7.4e-09 gi|147321|gb|M96394|ECOPOLCACC Escherichia coli D 105 105 127 111.3 6.6 gi|154571|gb|M18165|SYOPSAAB Cyanobacterium psaA 67 67 121 96.9 11 gi|763515|gb|L41358|STRHPPABG Streptococcus gordo 101 101 121 99.0 12 gi|251294|gb|S39782|S39782 sod=manganese-type sup 57 57 120 107.6 17 gi|925128|gb|U32709|HIU32709 Haemophilus influenz 86 86 116 88.3 20 gi|882681|gb|U29581|ECU29581 Escherichia coli K-1 85 85 113 73.7 21 gi|148307|gb|L07892|ENEBLACREG Enterococcus faeca 63 63 118 105.6 22 gi|1045878|gb|U39697|MGU39697 Mycoplasma genitali 153 107 114 83.5 24 gi|1003839|gb|L45119|HEAHI0478 Haemophilus influe 94 94 118 110.8 25 gi|1003360|gb|L44876|HEAHI0231 Haemophilus influe 86 86 116 99.3 26 gi|478995|gb|M97227|BACTOP1A Bacillus anthracis t 93 93 114 92.6 30

  25. gi|145455|gb|M76411|ECOCADABC E.coli cadA gene, 5' cds (4349 nt) initn: 4200 init1: 4200 opt: 4200 z-score: 4112.7 E(): 0 100.0% identity in 840 nt overlap 10 20 30 xecada ATGAACGTTATTGCAATATTGAATCACATG X::::::::::::::::::::::::::::: gi|145 GAGGGGCCTTTTTTACCTGGAGATATGACTATGAACGTTATTGCAATATTGAATCACATG 1890 1900 1910 1920 1930 1940 gi|145338|gb|M93362|ECOARGDECA Escherichia coli argini (3004 nt) initn: 203 init1: 149 opt: 378 z-score: 354.0 E(): 1e-13 55.3% identity in 438 nt overlap 360 370 380 390 400 410 xecada AGACCACTGACGAATATATCAACACTATTCTGCCTCCGCTGACTAAAGCACTGTTTAAAT :::: :: ::: : :: ::: : :::: gi|145 CCGCGATGACCCGCTACCGCCAGCAGCTGTTGCCGCCACTGTTCAGCGCGCTGATGAAAT 580 590 600 610 620 630 . 780 790 800 810 820 830 xecada TACGCCAATCTATTTCCGCCCGACCCGTAACGCTTACGGTATTCTTGGTGGTATCCCACA : :: ::::: : :: : ::: ::: ::::X ::: : :: gi|145 GAAACCGGTCTATATGGTGCCAAGCCGCAACCGCTACGGCATTATCGGGCCAATCTATCC 1000 1010 1020 1030 1040 1050 Library scan: 0:03:12 total CPU time: 0:03:13

  26. Intérêts de comparaison hétérogène entre séquences protéiques et séquences nucléiques Sensibilité : La comparison entre séquences d'un alphabet à 20 lettres (20 AA) est beaucoup plus sensible qu'entre séquences nucléiques (alphabet à 4 lettres). L'utilisation d'une matrice de pondération renforce encore le caractère de spécificité. Exhaustivité : L'utilisation de tfasta ou de tblastn entre une séquence protéique et une base de séquences nucléiques permet de révéler (par traduction sur TOUTE la séquence) des similitudes de séquences codantes non annotées et donc non versées dans les banques de protéines

  27. Comparaison entre tfasta et tfastx entre séquences protéiques et nucléiques

  28. babbage$ more iles.result zirsec, 939 aa vs eco110K.iles library 2811 residues in 1 sequences TFASTX (3.07 March, 1997) function (optimized, BL50 matrix) ktup: 2 join: 39, opt: 27, gap-pen: -15/ -3 shift: -30, width: 16 reg.-scaled The best scores are: initn init1 opt ECO110K.ILES 2811 residues Pha 0 Code (2811) [f] 5587 3513 5855 ECO110K.ILES 2811 residues Pha 0 Code (2811) [r] 94 45 45 >>ECO110K.ILES 2811 residues Pha 0 Code 0 (2811 aa) initn: 5587 init1: 3513 opt: 5855 Smith-Waterman score: 5855; 92.300% identity in 948 aa overlap .... 180 190 200 210 220 230 zirsec KGAKPVHWCVDCRSALA-EAEVEYYDKTSPSIDVAFQA-VDQDALKAKFAVSNVNGPISL ::::::::::::::::: :::::::::::::::::::. ::::::::::::::::::::: ECO110 KGAKPVHWCVDCRSALA/EAEVEYYDKTSPSIDVAFQG\VDQDALKAKFAVSNVNGPISL 190 200 210 220 230 240 240 250 260 270 280 290 zirsec VIWTTRR-GLCLPTAQSLLHQISTMRWWQI-DGQAVILAKDLVESVMQRIGVTDYTILGT ::::: ::::::::::::::::::: . ::::::::::::::::::::::: ECO110 VIWTTTP\GLCLPTAQSLLHQISTMRWCRS/DGQAVILAKDLVESVMQRIGVTDSRHG-- 250 260 270 280 290 300 310 320 330 340 350 zirsec V-KGADVELLRFTHPF-MGFDVPAILGDHVTLDAGTGAVHTAPGHGPDDYVIGQKYGLET :::..: ::. . ::::::::::::::::::::::::::::::::::::::::::: ECO110 -\KGAELEPLRLPIRL/MGFDVPAILGDHVTLDAGTGAVHTAPGHGPDDYVIGQKYGLET 300 310 320 330 340 350 939 residues in 1 query sequences 2811 residues in 1 library sequences Tcomplib (8 proc)[version 3.0t77 April 29, 1997] start: Fri Oct 24 17:04:29 1997 done: Fri Oct 24 17:04:46 1997 Scan time: 0.040 Display time: 3.760 Function used was TFASTX

  29. http://fasta.bioch.virginia.edu/fasta_www2/fasta_intro.shtml

  30. BLAST

  31. Exemple de recherche d'un vecteur dans dbEST (banque de cDNA ) BLASTN 1.3.6 [8-May-93] Reference: Altschul, Stephen F., Warren Gish, Webb Miller, Eugene W. Myers, and David J. Lipman (1990). Basic local alignment search tool. J. Mol. Biol. 215:403-410. Notice: this program is optimized to find nearly identical sequences rapidly. To identify weak similarities encoded in nucleic acid, use BLASTX or TBLASTN. Query= puc.sdn (2686 letters, both strands) Database: dbEST 33,931 sequences; 10,744,496 total letters. Searching..................................................done Smallest Poisson High Probability Sequences producing High-scoring Segment Pairs: Score P(N) N gnl|dbest|22804 cDNA Human Infant Brain, Bento Soares H.s... 1156 1.6e-145 2 gnl|dbest|22295 cDNA Fetal brain, Stratagene H.sapiens H... 1185 1.8e-101 2 gnl|dbest|22217 cDNA Fetal brain, Stratagene H.sapiens H... 1187 3.5e-92 1 gnl|dbest|40571 cDNA Rice root O.sativa Homology: gp|M15... 1178 1.9e-91 1 gnl|dbest|21949 cDNA Fetal brain, Stratagene H.sapiens H... 986 2.3e-75 1 gnl|dbest|17582 cDNA Liver HepG2 cell line. H.sapiens Ho... 903 2.5e-66 1 gnl|dbest|40683 cDNA Atrium cDNA library Human heart H.sa... 761 1.8e-56 1 gnl|dbest|21034 cDNA Lambda-PRL2 A.thaliana Homology: gp... 731 2.6e-53 1 gnl|dbest|34146 cDNA Lambda-PRL2 A.thaliana Homology: gp... 731 2.6e-53 1 gnl|dbest|21517 cDNA Lambda-PRL2 A.thaliana Homology: gp... 740 2.9e-53 1 gnl|dbest|34018 cDNA Lambda-PRL2 A.thaliana Homology: gp... 740 2.9e-53 1 gnl|dbest|30938 cDNA Human pancreatic islet H.sapiens Ho... 634 7.9e-46 1

  32. >gnl|dbest|22804 cDNA Human Infant Brain, Bento Soares H.sapiens Homology: gp|J01566|CE1CG_6 Plasmid ColE1, complete genome. [Plasmid ColE1] >gp|J01566|CE1CG13_6 Plasmid ColE1, complete genome. [Plasmid ColE1] Score: 147 pVal: 2.2e-15 Length = 445 Minus Strand HSPs: Score = 1156* (319.5 bits), Expect = 5.4e-87, P = 1.3e-89 Identities = 232/233 (99%), Positives = 232/233 (99%), Strand = Minus Query: 233 TGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCAC 174 |||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||| Sbjct: 4 TGGCGTAATCATGGTCATAGCTGTTTCCGGTGTGAAATTGTTATCCGCTCACAATTCCAC 63 Query: 173 ACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATGAGTGAGCTAAC 114 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 64 ACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATGAGTGAGCTAAC 123 Query: 113 TCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGC 54 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 124 TCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGC 183 Query: 53 TGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGC 1 ||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 184 TGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGC 236

  33. Exemple de BLASTP Smallest Poisson High Probability Sequences producing High-scoring Segment Pairs: Score P(N) N RGECLR Leucine-responsive regulatory protein - Escherichi... 248 8.1e-29 1 QQECE1 Regulatory protein asnC - Escherichia coli | 1493.... 70 0.053 1 W2WL6 E2 protein - Human papillomavirus (type 6b) | 1650... 65 0.26 1 ACRYD1 Nicotinic acetylcholine receptor delta chain precu... 62 0.58 1 A34346 *Acetylcholine receptor delta chain - Pacific elec... 62 0.58 1 S04130 Embryonic abundant protein (clone pLEA76) - Rape 60 0.82 1 A35239 *Collagen alpha 1(XI) chain precursor - Human (fra... 57 0.99 1 S02072 Enolase beta - Rat #EC-number 4.2.1.11 57 0.99 1 S07430 M polyprotein precursor - Germiston virus 56 1.0 1 A29964 Cadherin precursor, neuronal - Chicken 56 1.0 1 S11487 *N-cadherin precursor - Human 56 1.0 1 A32759 *Cadherin precursor, neural - Mouse 56 1.0 1 S11693 *N-cadherin precursor - Bovine 56 1.0 1 JQ0751 *N-cadherin - Human 56 1.0 1 VCVWM1 env polyprotein - Mink cell focus-forming viruses ... 56 1.0 1 A34357 *Substance P receptor - Rat 55 1.0 1 >RGECLR Leucine-responsive regulatory protein - Escherichia coli | 1493.0 2.0 1.0 1.0 1.0 Length = 164 Score = 248 (124.0 bits), Expect = 8.1e-29, P = 8.1e-29 Identities = 48/49 (97%), Positives = 48/49 (97%) Query: 555 MVDSKKRPGKDLDRIDRNILNELQKDGRISNVELSKRVGLSPTPCLXRV 603 MVDSKKRPGKDLDRIDRNILNELQKDGRISNVELSKRVGLSPTPCL RV Sbjct: 1 MVDSKKRPGKDLDRIDRNILNELQKDGRISNVELSKRVGLSPTPCLERV 49 >QQECE1 Regulatory protein asnC - Escherichia coli | 1493.0 1.0 1.0 1.0 1.0 Length = 152 Score = 70 (35.0 bits), Expect = 0.054, P = 0.053 Identities = 15/38 (39%), Positives = 24/38 (63%) Query: 566 LDRIDRNILNELQKDGRISNVELSKRVGLSPTPCLXRV 603 +D +DR IL+ L ++R + EL+K+ G+SP RV Sbjct: 6 IDNLDRGILEALMGNARTAYAELAKQFGVSPGTIHVRV 43

  34. Version récentes de BLAST : (Septembre 1997) BLAST : Version avec gap Version plus rapide, du fait de la modification de l'algorithme de recherche (séléction de 2 mots de score minimum de 11, au lieu de 1 de score 14). Raccordement des HSP par des insertions, sous conditions de score global supérieur à un seuil donné, compatible avec le seuil de probalbilité. Ceci conduit à étendre les segments sur la majeure partie similaire. PSI-BLAST : Version avec construction de profile et itération Ce programme ajoute à BLAST, la possibilité de générer, aprés la premiére sélection, une matrice de profile long de l'alignement. C'est ce profile qui sera ensuite recherché sur la banques entiére (modification de l'algorithme de BLAST). Méthode plus sensible qui, de plus, est itérative jusqu'à une convergence définie par une probabilité d'avoir un segment similaire. Exemple d'utilisation de NCBI-BLAST2: $ formatdb -t domo -i domo $ blastall -p blastp -d domo -m 4 -v 1500 -e 1 -o tmp._human -i human Exemple d utilisation de PSI-BLAST blastpgp -d mabanque -m 4 -j 20 -v 1500 -e 1 -o tmp._human -i human Il est aussi possible d'utiliser une commande UNIX standard et d'éxécuter le programme en batch $ batch at>blastall -p blastp -d domo -m 4 -v 1500 -e 1e-4 -i maseq -o res.blp at><CTRL D>

  35. PSI-BLAST (protéines) babbage$ blast Choix du programme BLAST : BLASTP/PSI-PHI (P) BLASTX (X) BLASTN (N) TBLASTN (T) TBLASTX (B) P BLASTP (P) PSI-BLASTP (S) PHI-BLASTP (F) S Banques de sequences proteiques : NRprot union de SWISSPROT, SPTREMBL+REM, GENPEPT, PIR, NRL3D, PDB N NRprot union des updates de SWISSPROT, SPTREMBL+REM, GENPEPT U Swiss-Prot Release J Swiss-Prot Updates (hebdomadaire) I Choix de la Banque (multiselection ex:H I)

  36. babbage$ more pth.blpsi BLASTP 2.0.8 [Jan-3-1999] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= PTH_ECOLI (194 letters) Database: nrprot 275,964 sequences; 82,420,780 total letters Searching..................................................done High E Sequences producing significant alignments: Score Value sw|P23932|PTH_ECOLI PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 377 e-104 sw|Q60001|PTH_SALTI PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 351 2e-96 sw|P44682|PTH_HAEIN PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 250 5e-66 sw|P96386|PTH_MYCTU PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 135 2e-31 sw|P37470|SP5C_BACSU PROBABLE PEPTIDYL-TRNA HYDROLASE (EC 3.1.1... 122 2e-27 sw|Q59989|PTH_SYNY3 PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 121 2e-27 gp||CTU31570_1 106 9e-23 sw|P56077|PTH_HELPY PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 100 7e-21 sw|P78034|PTH_MYCPN PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 99.4 1e-20 sw|P47714|PTH_BORBU PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 86.5 9e-17 sw|P47329|PTH_MYCGE PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.29) (PTH). 81.7 2e-15 sw|P49607|PTH_CHLTR PROBABLE PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.... 76.2 1e-13 pir|S|C37840 hypothetical protein (S18 5' region) - Chlamydia t... 76.2 1e-13 sw|P38876|PTH_YEAST PUTATIVE PEPTIDYL-TRNA HYDROLASE (EC 3.1.1.... 63.7 7e-10 gp||MGU02185_1 44.9 3e-04 sw|P07015|ODO1_ECOLI 2-OXOGLUTARATE DEHYDROGENASE E1 COMPONENT ... 33.5 0.80

  37. gp||D90711_6 33.5 0.80 QUERY 1 MTIKLIVGLANPGAEYAATRHNAGAWFVDLLAERLRAPLREEAKFFGYTSRVTLGG---- 56 34230 1 MTIKLIVGLANPGAEYAATRHNAGAWFVDLLAERLRAPLREEAKFFGYTSRVTLGG---- 56 66361 1 MAIKLIVGLANPGAEYAATRHNAGAWYVDLLADGLRAPLREEPKFFGYTSRITLEG---- 56 34231 4 IKLIVGLGNPGDKYTDTRHNAGEWLIERLARRFNVSLNPESKFFGKTARTLVNG---- 57 66360 6 LVVGLGNPGANYARTRHNLGFVVADLLAARLGAKFKAHKRSGAEVATGRSAG---- 57 41014 3 VIAGLGNPGKNYENTRHNVGFMVIDQLAKEWNIELNQN-KFNGLYGTGFVSG---- 53 66362 1 MIPKLIVGLGNPEPKYDQTRHNIGFAVVDALAITWQCSWYDHKRFQGWFGEGLMAG---- 56 193386 2 VKLVVGIGNPGRQYVWTRHNIGFLFLDMLASRFSGAFREAPRLFSSFMKVETSC---- 55 66358 3 LLVGLGNPTLRYAHTRHNAGFDILDSLVSELDLSFTFSPKHNAFLCVY-------- 50 66359 4 LRLVVGLGNLGKQYAETRHNAGFKVIDRLLSLYHVQLEERNNLGEF---ILLRK---- 54 34228 4 LILGLGNPGLEFSLTRHNVGFSLLDKIVSKNGLFLKRKKKY-EYSELKMISG---- 54 34232 3 TYKLIVGLGNLGKKYEKTRHNAGFMVLDRLASLFHLNFDKTNKLGDY---LFIKE---- 54 34229 1 LDMLASRFSGAFREAPRLFSSFMKVETSC---- 29 258837 1 LDMLASRFSGAFREAPRLFSSFMKVETSC---- 29 34233 8 VLTGIGNPEPQYAGTRHNVGLYMLELLRKRLGLQGRT------YSPVPNTGGKVHY 57

  38. Sequences not found previously or not previously below threshold: gp||HUMIGLVBB_1 33.0 1.1 sptr|Q84939|Q84939 NSP1. 31.2 4.0 gp||HSIGVLC84_1 30.8 5.2 sptr|Q40589|Q40589 CYTOSOLIC ASCORBATE PEROXIDASE. 30.1 8.7 sptr|Q42941|Q42941 ASCORBATE PEROXIDASE (EC 1.11.1.11) (L-ASCOR... 30.1 8.7 sptr|Q73414|Q73414 VIRUS INFECTIVITY FACTOR. 30.1 8.7 sw|P04598|VIF_HV1B5 VIRION INFECTIVITY FACTOR (SOR PROTEIN). 30.1 8.7 sptr|Q73416|Q73416 VIRUS INFECTIVITY FACTOR. 30.1 8.7 CONVERGED! QUERY 1 MTIKLIVGLANPGAEYAATRHNAGAWF-VDLLAERLRAPLREEAKF----FGYTSRVTLG 55 34230 1 MTIKLIVGLANPGAEYAATRHNAGAWF-VDLLAERLRAPLREEAKF----FGYTSRVTLG 55 66361 1 MAIKLIVGLANPGAEYAATRHNAGAWY-VDLLADGLRAPLREEPKF----FGYTSRITLE 55 34231 4 IKLIVGLGNPGDKYTDTRHNAGEWL-IERLARRFNVSLNPESKF----FGKTARTLVN 56 66362 1 MIPKLIVGLGNPEPKYDQTRHNIGFAV-VDALAITWQCSWYDHKRF----QGWFGEGLMA 55 41014 3 VIAGLGNPGKNYENTRHNVGFMV-IDQLAKEWNIELNQ-NKF----NGLYGTGFVS 52 66360 6 LVVGLGNPGANYARTRHNLGFVV-ADLLAARLGAKFKAHKRS----GAEVATGRSA 56 193386 2 VKLVVGIGNPGRQYVWTRHNIGFLF-LDMLASRFSGAFREAPRL----FSSFMKVETS 54 66359 4 LRLVVGLGNLGKQYAETRHNAGFKV-IDRLLSLYHVQLEERNNL----GEF---ILLR 53 34232 3 TYKLIVGLGNLGKKYEKTRHNAGFMV-LDRLASLFHLNFDKTNKL----GDYL---FIK 53 66358 3 LLVGLGNPTLRYAHTRHNAGFDI-LDSLVSELDLSFTFSPKH----NAFLCVY--- 50 34228 4 LILGLGNPGLEFSLTRHNVGFSL-LDKIVSKNGLFLKRKKKY-----EYSELKMIS 53 34229 1 -LDMLASRFSGAFREAPRL----FSSFMKVETS 28

  39. http://blast.ncbi.nlm.nih.gov/Blast.cgi

  40. Et bien sûr pour etre plus performant : Utilisation des codes blast en local Sur vos machines

  41. ALIGNEMENTS MULTIPLES

  42. ALIGNEMENTS MULTIPLES But : Pouvoir aligner plusieurs séquences entre elles Hypothèse : Les séquences doivent être similaires (sinon, cela n'a aucun sens) Les alignements sont faits par des méthodes globales (ou quasi-globales) Génération de nouveaux algorithmes (après 1988) Taylor et al (1987) Feng et Doolittle (1988) Corpet et al (1988) Multalin (1989) Treelalign Higgins et al (1989) Clustal (1990) Clustalv GCG (1992) Pileup (1994) Clustalw (1996) Clustalw 1.6 (1997) Clustalw 1.7 Tendance vers 2 étapes 1) Calcul des scores pour toutes les paires de séquences (n*(n-1)/2) scores de pourcentage de similitudes (0-100) 2) Etablir une classification en regroupant les plus proches scores (UPGMA) 3) Reprise des séquences par couples les plus proches pour un alignement optimal et fusion des alignements par alignement optimal des consensus (moyenne arithmétique des poids des couples de résidus à une position donnée). 4) Utilisation des masques de structures secondaires (Clustalw 1.6 et 1.7)

  43. Différences entre les méthodes 1) choix de la 1ère méthode lente (optimal) ou rapide (k-tuples) choix des matrices de similitudes (PAM250 puis BLOSUM62) 2) traitement des gaps (aux extrémités et/ou des gaps cumulés) 3) itération sur l'alignement multiple 4) robustesse sur les différences de longueurs (gaps externes) 5) pénalités des gaps suivant des profils externes (structure II ...) Consulter la documentation de Clustalw (avec la distribution du logiciel, utilisable aussi sur Mac et PC) . • Programme Multalin (possibilité de processus itératifs) • D'autres approches par blocs communs sont aussi à prendre en compte (macaw dialign2 ..) • Une nouvelle tendance utilisant les chaines de Markov se développe : msa, hmmer ... ou par utilisation de l'information des séquences (t-coffee) ou des banques (ballast ) Utilisation plus récente de muscle Utilisation des éditeurs multiples : seaview4 (Xwindow)

  44. CLUSTAL-Alignment file created [cas.aln] CLUSTAL W (1.7) multiple sequence alignment CAS1_MOUSE MKLLILTCLVAAAFAMPRLHSRNAVSSQTQQ---QHSSSEE-------IFKQPKYLNLNQ CAS1_RAT MKLLILTCLVAAALALPRAHRRNAVSSQTQQ---ENSSSEEQE-----IVKQPKYLSLNE CAS1_HUMAN MRLLILTCLVAVALARPKLPLR--YPERLQN---PSESSEP-------IPLE-----SRE CAS1_RABIT MKLLILTCLVATALARHKFHLGHLKLTQEQP---ESSEQEILKERKLLRFVQTVPLELRE CAS1_BOVIN MKLLILTCLVAVALARPKHPIKHQGLPQ-------EVLNEN----LLRFFVAPFPEVFGK CAS1_SHEEP MKLLILTCLVAVALARPKHPIKHQGLSP-------EVLNEN----LLRFVVAPFPEVFRK CAS1_PIG MKLLIFICLAAVALARPKPPLRHQEHLQNEPDSREELFKERK---FLRFPEVPLLSQFRQ *:***: **.*.*:* : .* : CAS1_MOUSE EFVNNMNRQRALLTE-----QNDEIKVTMDAASE-EQAMASAQE-DSSISSSS-EESEEA CAS1_RAT EFVNNLNRQRELLTE-----QDNEIKITMDSSAE-EQATASAQE-DSSSSSSSSEESKDA CAS1_HUMAN EYMNGMNRQRNILREK----QTDEIKDTRNESTQ-NCVVAEPEKMESSISSSS------- CAS1_RABIT EYVNELNRQRELLREK----ENEEIKGTRNEVTE-EHVLADRET-EASISSSS------- CAS1_BOVIN EKVNELSKDIGSESTEDQAMEDIKQMEAESISSS-EEIVPNSVE-QKHIQKE-------- CAS1_SHEEP ENINELSKDIGSESIEDQAMEDAKQMKAGSSSSS-EEIVPNSAE-QKYIQKE-------- CAS1_PIG EIINELNRNHG--------MEGHEQRGS-SSSSS-EEVVGNSAE-QKHVQKEE------- * :* :.:: : : : . :. : . : ... CAS1_MOUSE IPNITE-QKNIANEDMLNQCTLEQLQRQ-----FKYNQLLQKASLAKQASLFQQPSLVQQ CAS1_RAT IPSATE-QKNIANKEILNRCTLEQLQRQ-----IKYSQLLQQASLAQQASLAQQASLAQQ CAS1_HUMAN ------------EEMSLSKCA-EQFCRL-----NEYNQL--------------------- CAS1_RABIT -----E-------EIVPSSTKQKYVPRE-----DLAYQP--------------------- CAS1_BOVIN -------------D-VPSERYLGYLEQL--LRLKKYKVP--------------------- CAS1_SHEEP -------------D-VPSERYLGYLEQL--LRLKKYNVP--------------------- CAS1_PIG -------------D-VPSQSYLGHLQGL-----NKYKLR--------------------- . . . CAS1_MOUSE ASLFQQPSLLQQASLFQQPSMAQQASLLQQLLLAQQ--PSLALQVSPAQQS--SLVQQAF CAS1_RAT ALLAQQPSLAQQAALAQQASLAQQAS---------------------------------- CAS1_HUMAN ---------QLQAAHAQE------------------------------------------ CAS1_RABIT ---------YVQQ----------------------------------------------- CAS1_BOVIN ---------QLEIVPNSA------------------------------------------ CAS1_SHEEP ---------QLEIVPKSA------------------------------------------ CAS1_PIG ---------QLEAIH--------------------------------------------- : CAS1_MOUSE LAQQASLAQKHHPRLSQSYYPHMEQPYRMNAYSQVQMRHPMSVVDQALAQFSVQPFPQIF CAS1_RAT LAQQASLAQKHHPRLSQVYYPNMEQPYRMNAYSQVQMRHPMSVVDQ--AQFSVQSFPQLS CAS1_HUMAN ------------------------QIRRMNENSHVQV----------------P-FQQLN CAS1_RABIT ------------------------QLLRMKERYQIQEREPMRVVNQELAQLYLQPFEQPY CAS1_BOVIN ----------------------EERLHSMKEGIHAQQKEPMIGVNQELAYFYPELFRQFY CAS1_SHEEP ----------------------EEQLHSMKEGNPAHQKQPMIAVN--------QLFRQFY CAS1_PIG ----------------------DQELHRTNEDKHTQQGEPMKGVNQEQAYFYFEPLHQFY

  45. documentation: http://www.drive5.com/muscle/muscle_userguide3.8.html#_Toc260497010 Server MUSCLE à l’EBI

More Related