Modélisation Bayésienne par chaines de Markov Monte Carlo

Modélisation Bayésienne par chaines de Markov Monte Carlo • I. Les probabilités Bayésiennes • II. Echantillonnage par Monte Carlo • Théorie des chaines de Markov • Algorithme de Metropolis • III. Application: reconstruction phylogénétique • IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

I. Lois des probabilités Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors dún lancer de dés) Interprétation Bayésienne : Degré díncertitude sur la véracité dúne assertion (dépend du contexte, en particulier, de línformation disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence díncertitude Apprendre par léxpérience et lóbservation

Lois des probabilités domaine commutativité loi du produit loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :

Problème: 11 machines, dont 1 défectueuse. Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.

A : la caisse provient de la machine défectueuse B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"

Théorème de Bayes

Simu sous une bonne machine Simu sous une Machine défectueuse

Théorème de Bayes Séquence de tirages successifs : Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

Sd : séquence de robinets tous défectueux.

Sd : séquence de robinets tous défectueux. Séquences simulées sous le modèle I0

Théorème de Bayes Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

Théorème de Bayes paramétré par Modèle Données Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S

10 piles 5 faces 0.66

II. Monte Carlo: Marche aléatoire 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1 0

Marche aléatoire biaisée 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.

Echantillonnage de la distributionde probabilité a posteriori Espérance a posteriori :

Chaines de Markov Suite de variables aléatoires (dans le cas précédent, l´intervalle [0,1]) à valeurs dans un espace X Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):

Distributions stationnaires et bilan détaillé Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire

Chaines de Markov ergodiques Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique

Algorithme de Métropolis On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire

Métropolis et inférence Bayésienne Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation espace d´états Chaine de Markov Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon (10 000 points) Moyennes sur l´échantillon: espérances a posteriori

III. Modèles stochastiques d´évolution moléculaire Chick A C C G A G A T A G C G A G C T Man G A Cat A G G G A G A T Fish A G G G A C A T Snail C A A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) (séquences alignées) Données : Modèle :

Modèles stochastiques d´évolution 2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)

Colonne Ci G C A A ?

G C A A

? G C A A

G C A A

Algorithme du "pruning" Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2

Modèles stochastiques Bayésiens Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori

Echantillonnage par Métropolis 1. Proposer une modif selon un noyau symétrique Accepter avec probabilité 2. 3. Reprendre en 1

"Node-sliding" T2 T1 T3 T4

Monte Carlo Markov chain (MCMC) E =-ln L For any topology T : burn in (discarded) sample 45 Chick Man 67 Cat 78 Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus

Modèles sites rapides/sites lents A C C G A T A C Chick A G C G A T C T Man Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C

Modèles sites rapides/sites lents A C C G A T A C Chick A G C G A T C T Man T C Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution A C C G A T A C Chick T C A G C G A T C T Man Cat A G G G A T A T Fish A G G G A T A C T C Snail A G G C A C A T C T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions

Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

Rééchantillonner les vitesses en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité

Echantillonnage alterné i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori

Modèles d´évolution moléculaire Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel

Modélisation Bayésienne par chaines de Markov Monte Carlo

Modélisation Bayésienne par chaines de Markov Monte Carlo

Presentation Transcript

MCMC Estimation

Markov Chain Monte Carlo

The Monte Carlo Method for pricing financial derivatives

Bayesian Methods with Monte Carlo Markov Chains II

Bayesian Methods with Monte Carlo Markov Chains I

Monte Carlo for Linear Operator Equations Fall 2012

Monte Carlo Simulation of Photon Migration

Monte-Carlo Planning: Policy Improvement

Introduction to Markov Chain Monte Carlo Fall 2013

MONTE CARLO METODUNA GİRİŞ

Monte Carlo Simulation

Monte-Carlo Planning II

Chapter 5: Monte Carlo Methods

Simulasi Monte Carlo

Haplotype Analysis based on Markov Chain Monte Carlo

Markov-Chain Monte Carlo

Markov Chain Monte Carlo

Lecture 12 Monte Carlo methods in parallel computing

Monte Carlo Methods

Simulation Algorithms for Lattice QCD

Image Segmentation by Data-Driven Markov Chain Monte Carlo

Simulasi Monte Carlo