170 likes | 250 Views
Décisions dans l’incertain Eric Sanlaville. ISIMA 3 F3, master SIAD novembre 2008. Processus de décision markoviens. Partie 3. Modèles markoviens pour la prise de décision en horizon lointain. Soit un système dont les états sont : E 1 , E 2 ,… E N
E N D
Décisions dans l’incertain Eric Sanlaville ISIMA 3 F3, master SIAD novembre 2008
Processus de décision markoviens Partie 3
Modèles markovienspour la prise de décisionen horizon lointain Soit un système dont les états sont : E1, E2,… EN Une suite de décisions doit être prise, à chaque période de temps (seconde, jour, mois, année,…) L’état du système à la période suivante, ainsi que le coût de la transition dépendent uniquement de l’état présent, de la décision prise
Rappels sur chaînes de markov On connaît la probabilité de transition d’un état à un autre en une période pij. Etats récurrents : quand on les quitte, on est sûr d’y revenir Etats transitoires : ce n’est pas certain.
Rappels sur chaînes de markov P est la matrice des probas de transition G =(V,E) est le graphe associé. (i,j) est dans E si et seulement si pij >0 Une chaîne ergodique a tous ses états récurrents. Son graphe est alors fortement connexe
Rappels sur chaînes de markov Résultat en horizon fini : Soit q(n) le vecteur ligne des probabilités des états après n transitions. On a q(n+1) = q(n)P.
Rappels sur chaînes de markov Résultat en horizon infini : Si la chaîne est ergodique, le vecteur des probabilités des états admet une limite quand le nombre de transitions tend vers l’infini, Et = P.
chaînes de markov avec coûts On associe à chaque arc (i,j)un coûtAij. L’espérance du coût en une transition à partir de l’étatiestnotéeai et vaut : ai = Aij. Pij L’espérance du coût en n transitions à partir de l’étatiestnoté vi(n) et vaut (écriturevect): v(n) = a + P v(n-1) = v(n-1) + Pna.
chaînes de markov avec coûts Si la chaîneadmetune distribution limiteP, L’espérance du coût en une transition en régimestationnairevaut : g = lim vi(n) –vi(n-1) = limSpijn . aj d’où g = .a
Chaînes avec coûts et décisions On associe à chaqueétati un ensemble de décisions : Ki. Proba de transition : pijk : probad’aller de i à j sachantquel’on a pris la décision k. Coût de transition Aijk : coût de la transition de ivers j sil’on a pris la décision k.
exemples Marketing Système : ventes d’un produit. Décisions : publicité, changement de produit,… parc de ressources (machines, camions, etc…) Gestion de stock : décisionsd’achat. Coût de stockage.
Horizon fini On note maintenant v(n) le vecteur des espérances des coûts minimaux en n périodes. vi (n)= mink {aik + pijk.vj(n-1)} On peut donc calculer ce vecteur par une récurrence arrière.
Horizon infini Après résolution du PL Si ik > 0, cela signifie que l’on doit prendre la décision k dans l’état i. de plus ik est alors la proba de l’état i pour la politique optimale. Si ik = 0 pour tout k : l’état i est transitoire pour la politique optimale
Taux d’actualisation = 1/1+i, i taux d’intérêt Horizon fini : vi (n)= mink {aik + pijk.vj(n-1)} Horizon infini ? Vi : espérance du coût total passage à la limite : Vi = mink {aik + pijk.Vj}
Actualisation en horizon infini Où les j sont des valeurs strictt positives.
Actualisation en horizon infini Pour connaître les décisions associées à ces coûts, Il faut regarder les variables duales: Une variable duale strictement positive associée à Un couple (i,k) signifie que la décision optimale pour L’état i est k