660 likes | 815 Views
Modélisation Bayésienne par chaines de Markov Monte Carlo . I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique
E N D
Modélisation Bayésienne par chaines de Markov Monte Carlo • I. Les probabilités Bayésiennes • II. Echantillonnage par Monte Carlo • Théorie des chaines de Markov • Algorithme de Metropolis • III. Application: reconstruction phylogénétique • IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs
I. Lois des probabilités Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors d´un lancer de dés) Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation
Lois des probabilités domaine commutativité loi du produit loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :
Problème: 11 machines, dont 1 défectueuse. Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.
A : la caisse provient de la machine défectueuse B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"
Simu sous une bonne machine Simu sous une Machine défectueuse
Théorème de Bayes Séquence de tirages successifs : Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation
Sd : séquence de robinets tous défectueux.
Sd : séquence de robinets tous défectueux. Séquences simulées sous le modèle I0
Théorème de Bayes Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données
Théorème de Bayes paramétré par Modèle Données Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données
Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.
Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S
10 piles 5 faces 0.66
II. Monte Carlo: Marche aléatoire 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1 0
Marche aléatoire biaisée 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.
Echantillonnage de la distributionde probabilité a posteriori Espérance a posteriori :
Chaines de Markov Suite de variables aléatoires (dans le cas précédent, l´intervalle [0,1]) à valeurs dans un espace X Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):
Distributions stationnaires et bilan détaillé Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire
Chaines de Markov ergodiques Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique
Algorithme de Métropolis On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire
Métropolis et inférence Bayésienne Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation espace d´états Chaine de Markov Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon (10 000 points) Moyennes sur l´échantillon: espérances a posteriori
III. Modèles stochastiques d´évolution moléculaire Chick A C C G A G A T A G C G A G C T Man G A Cat A G G G A G A T Fish A G G G A C A T Snail C A A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) (séquences alignées) Données : Modèle :
Modèles stochastiques d´évolution 2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)
Colonne Ci G C A A ?
G C A A
G C A A
G C A A
G C A A
? G C A A
G C A A
G C A A
Algorithme du "pruning" Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2
Modèles stochastiques Bayésiens Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori
Echantillonnage par Métropolis 1. Proposer une modif selon un noyau symétrique Accepter avec probabilité 2. 3. Reprendre en 1
"Node-sliding" T2 T1 T3 T4
Monte Carlo Markov chain (MCMC) E =-ln L For any topology T : burn in (discarded) sample 45 Chick Man 67 Cat 78 Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus
Modèles sites rapides/sites lents A C C G A T A C Chick A G C G A T C T Man Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C
Modèles sites rapides/sites lents A C C G A T A C Chick A G C G A T C T Man T C Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution A C C G A T A C Chick T C A G C G A T C T Man Cat A G G G A T A T Fish A G G G A T A C T C Snail A G G C A C A T C T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions
Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T
Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T
Rééchantillonner les vitesses en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité
Echantillonnage alterné i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori
Modèles d´évolution moléculaire Chick A C C G A G A T A G C G A G C T Man Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel