1 / 17

Décisions dans l’incertain Eric Sanlaville

Décisions dans l’incertain Eric Sanlaville. ISIMA 3 F3, master SIAD novembre 2008. Processus de décision markoviens. Partie 3. Modèles markoviens pour la prise de décision en horizon lointain. Soit un système dont les états sont : E 1 , E 2 ,… E N

prince
Download Presentation

Décisions dans l’incertain Eric Sanlaville

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Décisions dans l’incertain Eric Sanlaville ISIMA 3 F3, master SIAD novembre 2008

  2. Processus de décision markoviens Partie 3

  3. Modèles markovienspour la prise de décisionen horizon lointain Soit un système dont les états sont : E1, E2,… EN Une suite de décisions doit être prise, à chaque période de temps (seconde, jour, mois, année,…) L’état du système à la période suivante, ainsi que le coût de la transition dépendent uniquement de l’état présent, de la décision prise

  4. Rappels sur chaînes de markov On connaît la probabilité de transition d’un état à un autre en une période pij. Etats récurrents : quand on les quitte, on est sûr d’y revenir Etats transitoires : ce n’est pas certain.

  5. Rappels sur chaînes de markov P est la matrice des probas de transition G =(V,E) est le graphe associé. (i,j) est dans E si et seulement si pij >0 Une chaîne ergodique a tous ses états récurrents. Son graphe est alors fortement connexe

  6. Rappels sur chaînes de markov Résultat en horizon fini : Soit q(n) le vecteur ligne des probabilités des états après n transitions. On a q(n+1) = q(n)P.

  7. Rappels sur chaînes de markov Résultat en horizon infini : Si la chaîne est ergodique, le vecteur des probabilités des états admet une limite  quand le nombre de transitions tend vers l’infini, Et  =  P.

  8. chaînes de markov avec coûts On associe à chaque arc (i,j)un coûtAij. L’espérance du coût en une transition à partir de l’étatiestnotéeai et vaut : ai = Aij. Pij L’espérance du coût en n transitions à partir de l’étatiestnoté vi(n) et vaut (écriturevect): v(n) = a + P v(n-1) = v(n-1) + Pna.

  9. chaînes de markov avec coûts Si la chaîneadmetune distribution limiteP, L’espérance du coût en une transition en régimestationnairevaut : g = lim vi(n) –vi(n-1) = limSpijn . aj d’où g = .a

  10. Chaînes avec coûts et décisions On associe à chaqueétati un ensemble de décisions : Ki. Proba de transition : pijk : probad’aller de i à j sachantquel’on a pris la décision k. Coût de transition Aijk : coût de la transition de ivers j sil’on a pris la décision k.

  11. exemples Marketing Système : ventes d’un produit. Décisions : publicité, changement de produit,… parc de ressources (machines, camions, etc…) Gestion de stock : décisionsd’achat. Coût de stockage.

  12. Horizon fini On note maintenant v(n) le vecteur des espérances des coûts minimaux en n périodes. vi (n)= mink {aik + pijk.vj(n-1)} On peut donc calculer ce vecteur par une récurrence arrière.

  13. Horizon infini

  14. Horizon infini Après résolution du PL Si ik > 0, cela signifie que l’on doit prendre la décision k dans l’état i. de plus ik est alors la proba de l’état i pour la politique optimale. Si ik = 0 pour tout k : l’état i est transitoire pour la politique optimale

  15. Taux d’actualisation = 1/1+i, i taux d’intérêt Horizon fini : vi (n)= mink {aik +  pijk.vj(n-1)} Horizon infini ? Vi : espérance du coût total passage à la limite : Vi = mink {aik +  pijk.Vj}

  16. Actualisation en horizon infini Où les j sont des valeurs strictt positives.

  17. Actualisation en horizon infini Pour connaître les décisions associées à ces coûts, Il faut regarder les variables duales: Une variable duale strictement positive associée à Un couple (i,k) signifie que la décision optimale pour L’état i est k

More Related