1 / 61

Prédiction markovienne in silico des régions constantes et variables des lentivirus

Prédiction markovienne in silico des régions constantes et variables des lentivirus. Aurélia Boissin-Quillon. UMR754 « Rétrovirus et pathologie comparée » UMR5208 « Institut Camille Jordan ». Directeurs de thèse : Dr Caroline Leroux (DR,INRA) Pr Didier Piau (PR, Université Grenoble 1).

Download Presentation

Prédiction markovienne in silico des régions constantes et variables des lentivirus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon UMR754 « Rétrovirus et pathologie comparée » UMR5208 « Institut Camille Jordan » Directeurs de thèse : Dr Caroline Leroux (DR,INRA) Pr Didier Piau (PR, Université Grenoble 1)

  2. SU TM env Les rétrovirus • Famille des Retroviridae • Virus enveloppés à ARN • Génome constitué de deux copies d’ARN simple brin gag LTR LTR pol

  3. Le genre lentivirus • Un genre de la famille des Retroviridae • Composé de HIV, EIAV, SRLV, SIV, FIV, BIV • Grande variabilité génétique générée lors de la synthèse du matériel génétique

  4. Répartition des mutations le long du génome des lentivirus • Mutations pas réparties de manière homogène • Principalement gène env, notamment dans la partie codant la glycoprotéine de surface (SU). • SU constituée d'une successionde régionsconstantes (pas ou peu de variabilité génétique) et de régions variables (nombreuses mutations).

  5. TDTWIPKGCNETWA N............. N............. N............. N............P N............. N............. .............. .............. .............. .N............ .............. .............. NG............ N...T......... ENEMVNIND ........G ........G ........V ......ND- ......... ......... ......... ......... ......... ......... ......... ......... .......SV ........- C C C 175 | 248 | 269 295 | | V V V C Réference 1 2 3 4 5 6 7 8 9 10 11 12 13 14 QPPFFLVQEKGIANTSRIGNCGPTIFL ........G.E................ ........G.E.D.............. ........GE................. ........G...T...K.......... ........G.................. ........G.................. ........................... ........................... ........................... ........................... ........................... ........................... ..........E..S............. ..........RVN..A........... QEYQCKKVNLNSSDSSNPVR------VEDVMNTTEYWGFKWLEC ..........T--------------------D............ ..........T--------------------D............ ..........T--------------------D.I.......... ..........TT-------------------............. ..........M--------------------............. ..........M--------------------............. ..........M--------------------............. ....................------.................. ....................------.................. ....................------....I............. .................T..------....I............. ....................------.................. ..........TA.N..IS.S------GKGERD............ ......E...TLKS.NSSIPPIHVED...EG.IM.F........ NQTENFKTILVP .........V.. .....L...... ............ ............ ............ ............ ............ ............ ............ ............ ............ ............ ............ .....L......

  6. SIV (530 aa) C1 V1 C2 V2 C3 V3 C4 V4 C5 V5 C6 BIV (550 aa) C1 V1 C2 V2 C3 V3 C4 V4 C5 V5 C6 V6 C7 EIAV (440 aa) V7 V8 C6 C7 C4 C5 C8 C9 V1 C2 V2 C3 V3 V4 V5 V6 C1 Identification de régions C et V chez tous les lentivirus

  7. Le contexte biologique • Grande variabilité de tous les génomes lentiviraux entraîne des modifications de la biologie des virus : Échappement à la réponse immunitaire, virulence, tropisme cellulaire… • L’accumulation de mutations dans les régions variables peut provenir de : • Taux de mutations localement élevé • Mécanismes de sélection • Combinaison de ces deux phénomènes

  8. Objectif Déterminer s’il existe des signatures spécifiques des régions constantes et variables des lentivirus

  9. Méthode : Utiliser des outils mathématiques capables de segmenter les séquences en régions constantes et variablesafin d’en extraire des caractéristiques de chacun de ces deux types de régions.

  10. Plan • Le contexte biologique • Les outils mathématiques • Modèles prédictifs des régions constantes et variables d’EIAV • Extension des modèles aux autres lentivirus • Extraction de mots caractéristiques • Une autre application des modèles • Conclusions et perspectives

  11. Un peu de vocabulaire… Séquence Nucléotides Acides aminés C TT WYI A TATA TAC L SHMR A DP Mot Lettre Mot Lettre Alphabet à 4 lettres : A={A,C,G,T} Alphabet à 20 lettres : A={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

  12. Comment segmenter lesséquences (nt ou aa)? Nombreuses méthodes de segmentation des séquences : Modèles de rupture Modèles de Markov cachés

  13. Les modèles de Markov cachés Une séquence hétérogène est considérée comme une succession de régions statistiquement homogènes appelées états cachés. V1 V2 C2 C1 Chaîne de Markov 1 Chaîne de Markov 2 Chaîne de Markov 1 Chaîne de Markov 2 La succession des états cachés est décrite par une chaîne de Markov inobservable : la chaîne cachée

  14. Chaîne des états Chaîne des observations Les différents modèles de Markov cachés • Le modèle M1-M0 : • Le modèle M1-M5 : • Le modèle M1-M1 : C C C C V V C G A C C T T

  15. Les paramètres des modèles de Markov cachés Un modèle de Markov caché M1-Mm est entièrement défini par : • Le nombre N d’états cachés qui correspond au nombre de types de régions • Le nombre M de lettres différentes dans la séquence • Les lois initiales qui permettent de modéliser ce qui se passe au début de la séquence au niveau des états et au niveau des observations • La matrice de transition T de la chaîne des états • La matrice d’émission E de la chaîne des observations

  16. La matrice d’émission E Elle modélise la relation entre les observations et les états. Soit xi:j = (xi,xi+1,…,xj), alors, pour a1:m+1ЄA et k ЄS: MC E = MV E(k,a1:m,am+1)=P(Xi+1=am+1 | Xi-m+1:i =a1:m, Si+1=k ) avec ∑am+1ЄA E(k ,a1:m, am+1) = 1 Les matrices de transition T et d’émission E La matrice de transition T Elle modélise la relation entre les états (passage d’un type de région à l’autre) avec ∑l ЄS T(k,l)=1 T(k,l)=P(Si+1=l | Si=k) pour k,l ЄS

  17. ^ Estimation des paramètres Soient X(1),..,X(p) p séquences nucléotidiques ou déduites en acides aminés. Soit θ= {T,E} l’ensemble des paramètres du modèle à estimer. On cherche : θ = argmax P(X(1),…,X(p) | θ) Deux situations : • La séquence des états cachés est connue (alignement)  Comptage direct • La séquence des états cachés est inconnue  Algorithme de Baum-Welch

  18. Algorithme de Baum-Welch Algorithme de Baum-Welch = cas particulier de l’algorithme EM (expectation-maximisation) Algorithme itératif consistant en l’alternance de deux phases: • Phase E : Estimation de la séquence des états cachés • Phase M : Maximisation de la vraisemblance A chaque itération, un nouvel ensemble de paramètres θ’ augmentant la vraisemblance est défini.  Convergence vers un maximum local

  19. A A C C G G T T G G C C C C A A A A T T C C A A T T G G T T T T C 1 1 C 1 C C 1 2 V 2 V V 2 V 1 C 1 C 1 C 2 C 2 V 2 V 2 V 2 V 2 Pour tout 1 ≤ i ≤ n et tout k ЄS,on calcule : P(Si=k | X) Reconstruction de la séquence des états cachés Séquence des observations Séquence des états cachés Régions C et V Séquence des états cachés les plus probables

  20. Plan • Le contexte biologique • Les outils mathématiques • Modèles prédictifs des régions constantes et variables d’EIAV • Extension des modèles aux autres lentivirus • Extraction de mots caractéristiques • Une autre application des modèles • Conclusions et perspectives

  21. EIAV V7 V8 V1 V2 V3 V4 V5 V6 Le matériel utilisé 187 séquences (GenBank) 1200 nt ou 400 aa Échantillon d’apprentissage : 94 Échantillon de test : 93

  22. Nombre d’états cachés N Ordre du modèle m Pas de procédure statistique bien définie  augmentation progressive Deux types de régions : C et V  N=2 Quels modèles de Markov cachés? Alphabet 4 lettres (nt) 20 lettres (aa)

  23. V1 V2 V3 V4 V5 V6 V7 V8 Oscillation de la séquence des états cachés État 2 État 1 0 200 400 600 800 1000 1200 nucléotides Modèle M1-M5 sur les séquences nucléotidiques

  24. Définition d’un nouvel algorithme • Amélioration de l’estimation de la matrice d’émission • Introduction d’une information supplémentaire Algorithme de Baum-Welch avec matrice d’émission fixée • La matrice d’émission E va être estimée par comptage direct. • La matrice de transition T va être estimée par une variante de l’algorithme de Baum-Welch.

  25. Description de l’algorithme de Baum-Welch avec matrice d’émission fixée • Estimation des matrices d’émission sur chaque type de régions par comptage direct après alignement des séquences d’entraînement • Assemblage des matrices d’émission de chaque type de régions pour former un estimateur de la matrice E • Estimation de la matrice de transition T avec l’algorithme de Baum-Welch dont la phase M a été modifiée pour garder la matrice d’émission E à sa valeur estimée

  26. V1 V1 V2 V2 V3 V4 V3 V4 V5 V5 V6 V6 V7 V7 V8 V8 Influence de l’ordre sur la qualité prédictive Modèle M1-M0 sur les séquences nucléotidiques État 2 État 1 0 200 400 600 800 1000 1200 nucléotides

  27. V1 V1 V2 V2 V3 V4 V3 V4 V5 V5 V6 V6 V7 V7 V8 V8 Influence de l’ordre sur la qualité prédictive Modèle M1-M1 sur les séquences nucléotidiques État 2 État 1 0 200 400 600 800 1000 1200 nucléotides

  28. État 2 État 1 V1 V2 V3 V4 V5 V6 V7 V8 0 200 400 600 800 1000 1200 nucléotides Les régions C et V d’EIAV ont des compositions en mots de nucléotides différentes Modèle M1-M5 sur les séquences nucléotidiques

  29. État 2 État 1 V1 V2 V3 V4 V5 V6 V7 V8 0 100 200 300 400 acides aminés Les régions C et V d’EIAV ont des compositions en mots d’acides aminés différentes Modèle M1-M1 sur les séquences déduites en acides aminés

  30. Pour résumer : Il existe des modèles de Markov cachés d’ordre 5 sur les nucléotides ou d’ordre 1 sur les acides aminés capables de différencier avec une grande précision les régions C et V d’EIAV  Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V  Les régions C d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état  Les régions V d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état, tout en ayant chacune un profil statistique qui lui est propre

  31. Les régions V d’EIAV ont des compositions en mots de nucléotides différentes Modèle M1-M5 sur les séquences nucléotidiques État 9 État 8 État 7 État 6 État 5 État 4 État 3 État 2 État 1 V1 V2 V3 V4 V5 V6 V7 V8 200 400 600 1000 1200 0 800 nucléotides

  32. Un biais possible : le surentraînement séquence tardive séquence précoce 42 - - 250 41 - - 200 40 - - 150 Temperature °C 39 - - 100 38 - - 50 37 - - 0 - 300 - 100 - 200 - 400 - 500 - 700 - 800 - 600 - 1000 - 900 jours post- infection Exemple de séquenced’apprentissage : séquence précoce V1 V2 V3 V4 CKRVNLKKVNLTSSDSSIRVEDVGNTTEYWG Exemple de séquence de test : séquence tardive V1 V2 V3 V4 CKEVYWG

  33. Les modèles ne sont pas surentraînés État 9 État 8 État 7 État 6 État 5 État 4 État 3 État 2 État 1 V1 V2 V3 V4 V5 V6 V7 V8 200 400 600 1000 1200 0 800 nucléotides Modèle M1-M5 sur les séquences nucléotidiques

  34. Un autre biais possible : influence de l’ordre et de la position des régions variables Exemple de séquenced’apprentissage V1 V7 V2 V3 V8 Exemple de séquence de test V7 V1 V7’ V2 V3 V8

  35. Les modèles ne sont pas influencés par l’ordre ou la position des régions variables État 9 État 8 État 7 État 6 État 5 État 4 État 3 État 2 État 1 V7’ V1 V2 V3 V4 V5 V6 V7 V8 200 400 600 1000 1200 0 800 nucléotides

  36. Pour résumer : • Il est possible de différencier les régions C et V d’EIAV à l’aide de modèles de Markov cachés. • Ces modèles ne sont basés ni sur un alignement de séquences, ni sur l’identification de grands motifs, ni sur l’ordre, la position ou la longueur des différentes régions. • Ces modèles s’appuient sur la composition en mots de nucléotides ou d’acides aminés de chaque type de région. Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V

  37. P(i,j) H(P|Q) = ∑(i,j)π(i) P(i,j) log Q(i,j) Entropie relative : Entropie relative symétrisée : δ(P,Q)=H(P|Q)+H(Q|P) Quantification de la séparationdes régions C et V d’EIAV Définition d’une « distance » entre matrices d’émission : Soient P et Q les matrices de transition de deux chaînes de Markov et π la mesure stationnaire associée à P.

  38. Etude de la distance entre les régions constantes et variables d’EIAV : δ(Ci,C) < δ(Ci,Vj)pour tousietj δ(Vi,V) < δ(Vi,Cj)pour tousietj Etude de la séparation des régions C et V d’EIAV Test statistique • il existe une différence significative entre les régions constantes et variables • chaque région possède une signature qui lui est propre. Il existe une séparation entre le groupe des régions constantes et le groupe des régions variables.

  39. Plan • Le contexte biologique • Les outils mathématiques • Modèles prédictifs des régions constantes et variables d’EIAV • Extension des modèles aux autres lentivirus • Extraction de mots caractéristiques • Une autre application des modèles • Conclusions et perspectives

  40. Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus Exemple : HIV-1 nucléotides Modèle M1-M5 sur les séquences nucléotidiques

  41. Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus Exemple : HIV-1 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

  42. Performance des modèles

  43. Un modèle capable de différencier les régions C et V d’HIV-2? Etat 2 Etat 1 V1/V2 V3 V4 V5 0 100 200 300 400 500 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

  44. V1/V2 V3 V4 V5 V1/V2 V1/V2 V3 V3 V4 V4 V5 V5 Définition des régions C et V d’HIV-2 HIV-1 Homologie Alignement

  45. Il existe des régions C et V d’HIV-2 qui possèdent des caractéristiques statistiques différentes Etat 2 Etat 1 V1/V2 V3 V4 V5 0 100 200 300 400 500 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

  46. Il est possible de définir des modèles de Markov cachéscapables de différencier avec une bonne précision les régions constantes et variables des lentivirus EIAV, HIV, SIV et SRLV.

  47. acides aminés Les régions C et V possèdent des propriétés statistiques communes Modèle M1-M1 sur les séquences déduites en acides aminés

  48. acides aminés

  49. Plan • Le contexte biologique • Les outils mathématiques • Modèles prédictifs des régions constantes et variables d’EIAV • Extension des modèles aux autres lentivirus • Extraction de mots caractéristiques • Une autre application des modèles • Conclusions et perspectives

More Related