1 / 19

Décomposition de PDM à l’aide de techniques de décomposition de graphes

Décomposition de PDM à l’aide de techniques de décomposition de graphes. Régis Sabbadin INRA-BIA Toulouse 31326 Castanet-Tolosan Cedex sabbadin@toulouse.inra.fr. Processus Décisionnels Markoviens : Complexité de la résolution itérative. Itération de la politique : O(|S| 2 +|A|.|S| 2 )

luka
Download Presentation

Décomposition de PDM à l’aide de techniques de décomposition de graphes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Décomposition de PDM à l’aide de techniques de décomposition de graphes Régis Sabbadin INRA-BIA Toulouse 31326 Castanet-Tolosan Cedex sabbadin@toulouse.inra.fr

  2. Processus Décisionnels Markoviens :Complexité de la résolution itérative • Itération de la politique : O(|S|2+|A|.|S|2) • Evaluation : Vpt(s) = Ss’S p(s’|s,p(s)).[ r(s,p(s),s’)+g. Vpt(s’) ] • Amélioration : p’(s) = argmaxaASs’S p(s’|s,a).[ r(s,a,s’)+ g.Vpt(s’) ] • Itération de la valeur : O(|A|.|S|2) • Itération : Vt+1(s) = maxaASs’S p(s’|s,a).[ r(s,a,s’)+g.Vt(s’) ] Explosion combinatoire !

  3. Techniques de décomposition de PDMs • Agrégation d’états / actions • réduction de la taille de l’espace d’états • utilisation de macro-actions • Apprentissage par renforcement multi-agents • simulation / apprentissage de politiques partielles • Décomposition de l’espace d’états / d’actions • décomposition parallèle • décomposition sérielle

  4. Décomposition sérielle des PDMs- Généralités - • Décomposer l’espace d’états • S=S1...Sk SiSj=, les Si étants « peu connectés » • Topologie « en étoile » • Sommets : « noyaux » des Si (états non communiquants) • Centre (U) : ensemble « d’états communiquants » • Programmation Dynamique Asynchrone : • Alterner des itérations de VI ou PI sur les Si avec des évaluations de Vt (Vpt ) sur U

  5. Topologie en étoile • Périphérie : Per(Si)={s’S\Si, sSi, aA, p(s’|s,a)0} • Composant central, noyaux : • Composant central : U=iPer(Si) • Noyaux : Ki=Si\U S1 S2 S1 Per(S1) S3 S4 K1 K2 K1 K2 U U K3 K4 K3 K4

  6. PDM locaux Soit  fonction réelle sur U, arbitraire • PDMi = (SiPer(Si), A, pi, ri) - (s, s’)  SiSi  pi (s,a,s’) = p(s,a,s’) ri(s,a,s’) = r(s,a,s’) Si Ki -(s, s’)  Si-KiPer(Si) pi (s,a,s’) = p(s,a,s’) ri(s,a,s’) = (s’) Si-Ki - s  Per(Si) pi (s,a,s) = 1 ri(s,a,s’) = 0 Per(Si) Proposition : si  = V*|U alors Vi* = V*|SiPer(Si)

  7. V1 V2 K1 K2  U K3 K4 V3 V4 Résolution « décomposée » itérative(Dean & Lin, 95) Initialisation de V’= {, V1,..., Vk}; Faire V  V’; { Vi, pi }  sol_partielle(PDMi); V’  {, V1,..., Vn}; Mise à jour (s)  maxaASs’S p(s’|s,a).[ r(s,a,s’)+g.V’(s’) ] Tant que ||V’-V||   ; Retourner V’.

  8. Décomposition automatique de l’espace d’états • La résolution « décomposée » itérative est d’autant meilleure que : • La partition {S1,...,Sk} est « équilibrée » • |U| est faible • Question : Comment générer une telle partition automatiquement et efficacement ? • Réponse : Bipartition spectrale + Raffinement local

  9. Graphe associé à un PDM s’ s • maxa p(s,a,s’)0 Graphe G = (V, E)

  10. Bipartition de graphe (nombre de coupures) |S1| = 16, |S2| = 16, Cut = 10

  11. Bipartition de graphe (nombre de coupures) |S1| = 16, |S2| = 16, Cut = 2

  12. Bipartition de graphe(nombre de coupures) • Laplacien Q du graphe G = (V, E) : • Q(s,s’) = -1 ssi (s,s’)  E • Q(s,s’) = 0 si s  s’ et (s,s’)  E • Q(s,s) = - ( s’Q(s,s’) ) • Nombre de coupures d’une bipartition (S1,S2) : X = {xi} où xi=1 si xiS1 et xi=-1 si xiS2 Cut = 1/4 (XtQX) Ce résultat est valable pour un graphe valué!

  13. Bipartition minimale de graphe (Bipartition spectrale) • Partition minimale : Trouver X = {xi} tel que xi{-1,1}, (| xi|)  , minimisant Cut = 1/4 (XtQX) • Problème NP-complet • Bipartition spectrale : Trouver Z, vecteur propre de Q associé à la valeur propre minimale Projeter Z sur {-1,1}n, en respectant la contrainte d’équilibre Inefficace pour de grands graphes  Réduction de graphe

  14. Réduction de graphe valué(appariement maximal) Cut = 4

  15. P=6 P=5 P=5 P=3 Raffinement local de partition • La partition obtenue n’est pas minimale : • On minimise le nombre de coupures, pas la taille de U • Bipartition spectrale approximative • Effet de la réduction du graphe • Séquences successives d’échanges gloutons  de sommets, afin de minimiser P=|Per(S1) Per(S2)|

  16. Exemple de navigation CPU résolution (MATLAB, biproc. PIII 600, Linux): Itération de la valeur : 46.14s I. V. Décomposée (fig. gauche) : - Bipartition spectrale : 3.17s - Raffinement local : 2.37s - I.V. Décomp. : 20.27s Total : 25.81 s

  17. Transitions liens Validation expérimentale PDM 1 PDM 2 • Paramètres : • Taille du problème |S| (200, 400, 800, 1600 états) • Nombre moyen de liens aléatoires (0, 5, 10, 20, ..., 160) • Résultats : • Ratio |U|/|S| • Ratio CPU(Pol. It. Décomposée)/CPU(Pol. It.)

  18. Validation expérimentale

  19. Conclusions • Décomposition automatique de PDMs • inspirée de méthodes de décomposition de graphes • complémentaire avec la résolution de PDMs décomposés • Efficacité • utile pour des PDMs « faiblement couplés » de grande taille • plus intéressant si la décomposition peut être réutilisée • Perspectives décomposition « par variable » dans les PDMs à représentation factorisée

More Related