Alignement de séquences biologiques
This presentation is the property of its rightful owner.
Sponsored Links
1 / 29

Objectifs poursuivis PowerPoint PPT Presentation


  • 65 Views
  • Uploaded on
  • Presentation posted in: General

Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais htt://pbil.univ-lyon1.fr/alignment.html. Objectifs poursuivis. Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :

Download Presentation

Objectifs poursuivis

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Objectifs poursuivis

Alignement de séquences biologiquesLaurent DuretPôle Bioinformatique Lyonnaishtt://pbil.univ-lyon1.fr/alignment.html


Objectifs poursuivis

Objectifs poursuivis

  • Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :

    • Identification de gènes homologues

    • Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines.

    • Prédiction de fonction

    • Prédiction de structure (ARN, protéine) (Cf Deléage, Gaspin)

    • Reconstitution des relations évolutives entre séquences (phylogénie) (Cf Gouy).

    • Choix d'amorces PCR

    • ...


Alignement repr sentation

Alignement: représentation

  • Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences.

    G T T A A G G C G – G G A A A

    G T T – – – G C G A G G A C A

    * * * * * * * * * *

  • Mutations :

    • Substitution (mismatch)

    • Insertion

    • Délétion

  • Insertions ou délétions : indels (gap).


Quel est le bon alignement

Quel est le bon alignement ?

G T T A C G A G T T A C G A

G T T - G G A G T T G - G A

* * * * * * * * * *

OU

G T T A C - G A

G T T - - G G A

* * * * *

  • Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable


Fonction de score de similarit

Fonction de score de similarité

G T T A A G G C G – G G A A A

G T T – – – G C G A G G A C A

* * * * * * * * * *

Score =

Exemple:

  • identité = 1

  • mismatch = 0

  • gap = -1

  • Score = 10 - 4 = 6


  • Mod le d volution adn

    Modèle d'évolution (ADN)

    • Transition: A <-> G T <-> C

    • Transversions : autres substitutions

    • p(transition) > p(transversion)

      G T T A C G A G T T A C G A

      G T T - G G A G T T G - G A

      * * * * * * * * . * *


    Mod le d volution prot ines

    Modèle d'évolution (protéines)

    • Code génétique

      • Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation

      • Asp (GAC, GAU) Cys (UGC, UGU) : 2 mutations

      • Asp (GAC, GAU) Trp (UGG) : 3 mutations

    • Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.)

    • Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues

      • PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15)

      • BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs)

    Substitutions conservatrices


    Pond ration des gaps

    Pondération des gaps

    TGATATCGCCA TGATATCGCCA

    TGAT---TCCA TGAT-T--CCA

    **** *** **** * ***

    • Gap de longueur k:Pénalités linéaires:w = do + de k

      do : pénalité pour l'ouverture d'un gap

      de : pénalité pour l'extension d'un gap


    Pond ration des gaps plus r aliste

    Pondération des gaps (plus réaliste)

    • Estimation des paramètres sur des alignements "vrais" (par exemple basés sur l'alignement de structures connues)

    • Gap de longueur k:

      • Pénalités logarithmiques:w = do + de log(k)

      • w = f(log(k), log(PAM), résidus, structure)

        • PAM: la probabilité d'un gap augmente avec la distance évolutive

        • Résidus, structure: la probabilité d'un gap est plus forte dans une boucle (hydrophile) que dans le cœur hydrophobe des protéines


    Similarit globale locale

    Similarité globale, locale


    Similarit homologie

    Similarité, homologie

    • Deux séquences sont homologues ssi elles dérivent d'un ancêtre commun

    • 30% d'identité entre deux protéines => homologie, sauf si

      • Fragment similaire court (< 100 aa)

      • Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)


    Algorithmes d alignement de deux s quences

    Algorithmes d'alignement de deux séquences

    Algorithme de programmation dynamique :

    • Alignement global: Needleman & Wunsh

    • Alignement local: Smith & Waterman

      Heuristiques :

    • FASTA

    • BLAST


    Alignement multiple programmation dynamique

    Alignement multiple: programmation dynamique

    • La généralisation de l’algorithme N&W au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique.

    • Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1.

    • On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences.

      • Utilisation de méthodes heuristiques.


    Alignement progressif

    Alignement progressif

    • Approche consistant à construireitérativement l’alignement multiple en groupant des alignements de paires de séquences.

    • Ce genre de méthodes comporte trois étapes :

      • L’alignement des paires de séquences.

      • Le groupement des séquences.

      • Le groupement des alignements (alignement progressif).

    • CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche.

    • MULTALIN, PILEUP, T-Coffee


    P nalit s en fonction de la position

    Pénalités en fonction de la position

    • CLUSTAL introduit des pondérations qui sont dépendantes de la position des gaps.

      • Diminution de la pénalité à l’emplacement de gaps préexistants.

      • Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants.

      • Réduction de la pénalité au niveau de régions contenant des suites d’acides aminés hydrophiles (≥ 5 résidus).

      • Modification spécifiques en fonction des acides aminés présents (e.g., la pénalité est plus faible avec Gly, Asn, Pro).

    • Ces pondérations sont prises en compte au moment du groupement des alignements.


    Alignement progressif pas toujours optimal

    Alignement progressif: pas toujours optimal

    • Un seul des ces trois alignements est optimal


    T coffee notredame higgins heringa 2000 jmb 302 205

    T-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205


    T coffee notredame higgins heringa 2000 jmb 302 205 http igs server cnrs mrs fr cnotred

    T-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 http://igs-server.cnrs-mrs.fr/~cnotred/

    • Alignement progressif

    • Lors des alignements intermédiaire, prise en compte de tous les alignements deux à deux (globaux et locaux)

    • Possibilité d'incorporer d'autres informations (structure, etc.)


    Alignements globaux alignements par bloc

    Alignements globaux, alignements par bloc


    Dialign morgenstern et al 1996 pnas 93 12098

    DialignMorgenstern et al. 1996 PNAS 93:12098

    • Recherche de blocs similaires (≠ exact) sans gap entre les séquences

    • Sélection de la meilleure combinaison possible de blocs similaires (uniformes ou non) consistents : heuristique (Abdeddaim 1997)

    • Alignement ancré sur les blocs

    • Plus lent que alignement progressif, mais meilleur alignement quand les séquences contiennent de grands indels; ne cherche pas à aligner des régions non-alignables


    Alignements locaux

    Alignements locaux

    • MEME

    • MATCH-BOX

    • PIMA


    Bilan

    Bilan

    • ClustalW

    • Dialign

    • T-coffee

    • MEME


    Diteur d alignement multiple

    Éditeur d ’alignement multiple


    Cas particuliers

    Cas particuliers

    • Alignement de séquences ADN codantes

      L F L F

      CTT TTC CTT TTC

      CTC --- --- CTC

      L - - L

      • alignement des séquences protéiques

      • traduction-inverse de l'alignement protéique en alignement nucléique

    • Alignement cDNA / génomique: SIM4

    • Alignement protéine / génomique: WISE2


    Limitation des comparaisons deux deux blast fasta

    Limitation des comparaisons deux à deux (BLAST, FASTA, ...)

    Seq ACGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC

    :: : ::: :: : :

    InsulineCGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN

    ::: : : : :: : :

    Seq BYQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA

    Comparaisons 2 à 2:

    Insuline / Seq A : 25% d'identité

    Insuline / Seq B : 25% d'identité


    Alignement de s quences de la famille des insulines

    Alignement de séquences de la famille des insulines

    B-chain A-chain

    INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT

    INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY

    RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC

    BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC

    BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG

    BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI

    BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC

    LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR

    MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP

    MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY

    MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC

    MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY

    MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC

    ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS

    INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN

    IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK

    IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA

    *. .* ** * . *


    Repr sentation d un motif par une matrice de fr quences exemple

    Représentation d ’un motif par une matrice de fréquences (exemple)

    • Site donneur d ’épissage (vertébrés)

      Matrice de fréquence (pourcentage):

      BasePosition

      -3 -2 -1 +1 +2 +3 +4 +5 +6

      A3360 8 0 0 4971 6 15

      C 37 13 4 0 0 3 7 5 19

      G 18 14 81100 0 45 12 84 20

      T 12 13 7 0 100 3 9 5 46

      Cons. M A G G T R A G T


    Psi blast

    PSI-BLAST

    • Position-Specific Iterated BLAST

      • 1-recherche BLAST classique

      • 2-construction d'une matrice de pondération (profil) avec les séquences similaires détectées

      • 3-recherche BLAST à partir de ce nouveau profil

      • 4-itération des étapes 2-3 jusqu'à convergence

    • plus sensible que Smith-Waterman

    • 40 fois plus rapide


  • Login