1 / 65

Modélisation Bayésienne par chaines de Markov Monte Carlo

Modélisation Bayésienne par chaines de Markov Monte Carlo . I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique

Download Presentation

Modélisation Bayésienne par chaines de Markov Monte Carlo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modélisation Bayésienne par chaines de Markov Monte Carlo • I. Les probabilités Bayésiennes • II. Echantillonnage par Monte Carlo • Théorie des chaines de Markov • Algorithme de Metropolis • III. Application: reconstruction phylogénétique • IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

  2. I. Lois des probabilités Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors d´un lancer de dés) Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation

  3. Lois des probabilités domaine commutativité loi du produit loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :

  4. Problème: 11 machines, dont 1 défectueuse. Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.

  5. A : la caisse provient de la machine défectueuse B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"

  6. Théorème de Bayes

  7. Simu sous une bonne machine Simu sous une Machine défectueuse

  8. Théorème de Bayes Séquence de tirages successifs : Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

  9. Sd : séquence de robinets tous défectueux.

  10. Sd : séquence de robinets tous défectueux. Séquences simulées sous le modèle I0

  11. Théorème de Bayes Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

  12. Théorème de Bayes paramétré par Modèle Données Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

  13. Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

  14. Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S

  15. 10 piles 5 faces 0.66

  16. II. Monte Carlo: Marche aléatoire 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1 0

  17. Marche aléatoire biaisée 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.

  18. Echantillonnage de la distributionde probabilité a posteriori Espérance a posteriori :

  19. Chaines de Markov Suite de variables aléatoires (dans le cas précédent, l´intervalle [0,1]) à valeurs dans un espace X Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):

  20. Distributions stationnaires et bilan détaillé Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire

  21. Chaines de Markov ergodiques Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique

  22. Algorithme de Métropolis On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire

  23. Métropolis et inférence Bayésienne Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation espace d´états Chaine de Markov Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon (10 000 points) Moyennes sur l´échantillon: espérances a posteriori

  24. III. Modèles stochastiques d´évolution moléculaire Chick A C C G A G A T A G C G A G C T Man G A Cat A G G G A G A T Fish A G G G A C A T Snail C A A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) (séquences alignées) Données : Modèle :

  25. Modèles stochastiques d´évolution 2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)

  26. Colonne Ci G C A A ?

  27. G C A A

  28. G C A A

  29. G C A A

  30. G C A A

  31. ? G C A A

  32. G C A A

  33. G C A A

  34. Algorithme du "pruning" Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2

  35. Modèles stochastiques Bayésiens Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori

  36. Echantillonnage par Métropolis 1. Proposer une modif selon un noyau symétrique Accepter avec probabilité 2. 3. Reprendre en 1

  37. "Node-sliding" T2 T1 T3 T4

  38. Monte Carlo Markov chain (MCMC) E =-ln L For any topology T : burn in (discarded) sample 45 Chick Man 67 Cat 78 Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus

  39. Modèles sites rapides/sites lents A C C G A T A C Chick A G C G A T C T Man Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C

  40. Modèles sites rapides/sites lents A C C G A T A C Chick A G C G A T C T Man T C Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution A C C G A T A C Chick T C A G C G A T C T Man Cat A G G G A T A T Fish A G G G A T A C T C Snail A G G C A C A T C T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions

  41. Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

  42. Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

  43. Rééchantillonner les vitesses en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité

  44. Echantillonnage alterné i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori

  45. Modèles d´évolution moléculaire Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel

More Related