Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome
Download
1 / 55

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome - PowerPoint PPT Presentation


  • 81 Views
  • Uploaded on

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome. Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet. long-terme. Environnement. action. perception. renforcement. instantané. Construire un agent autonome.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Apprentissage de représentation et auto-organisation modulaire pour un agent autonome' - tave


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulairepour un agent autonome

Bruno Scherrer

6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet


Construire un agent autonome

long-terme modulaire

Environnement

action

perception

renforcement

instantané

Construire un agent autonome

  • Calculer une stratégie/politique

  • Exemples

    • marcher

    • conduire une voiture

    • jouer au backgammon


Repr sentation et organisation modulaire

24 V modulaire

50000 V

?

Représentation et organisation modulaire

Perception brute

Représentation

Organisation

en modules

spécialisés

Organisation

centralisée


S inspirer d un syst me performant
S'inspirer d'un système performant modulaire

  • autonome

  • robuste

  • "anytime"

  • dynamique

  • distribué & parallèle

  • tolérant aux pannes

Algorithmes connexionnistes

réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle


Objectifs
Objectifs modulaire

  • Montrer que les problèmes consistant à

    • calculer une stratégie/politique

    • apprendre une représentation

    • organiser un système en modules

      admettent des solutions connexionnistes

      Comprendre les enjeux computationnels

      d'une telle approche


Plan modulaire

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Algorithmes connexionnistes

sorties modulaire

entrées

propagation

synchrone

Loi de

Hebb

Algorithmes connexionnistes

  • Connectivité

  • Activations

  • Loi(s) d'apprentissage

  • (A)synchronisme ?

Système dynamique généralement complexe à analyser et concevoir !


Un calcul connexionniste

t=∞ modulaire

t=1

M

M

M

M

M

M

...

Point fixe

Contraction

<1

...

Un calcul connexionniste

t=0

Activation

unités


Un calcul connexionniste1
Un calcul connexionniste modulaire

  • Calcul du point fixe d'une contraction

    • Solution traditionnelle

    • Solution connexionniste

calcul distribué

parallèle

asynchrone

M

[Bertsekas & Tsitsiklis, 89]


Bilan
Bilan modulaire

  • Propriétés du calcul du point fixe…

    • anytime

    • dynamique

  • … avec une méthode connexionniste

    • massivement parallèle

  • Difficulté : taille du réseau

    • nombre d’itérations pour approcher le point fixe


Plan modulaire

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Contr le optimal

états modulaire

long-terme

T(s,a,s’)=P(s’|s,a)

actions

instantané

transition

récompense

R(s)

Contrôle optimal

On cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

 : S → A


Illustration

Plan : modulaire

Illustration

Actions


Illustration1
Illustration modulaire

  • Récompense


Illustration2
Illustration modulaire

  • Fonction de valeur optimale

récompense


Illustration3
Illustration modulaire

  • Politique optimale

fonction de valeur optimale


Lien avec le connexionnisme

T(s modulaire,←,s')

s'

T(s,↑,s'')

s''

V

R

...

s

Lien avec le connexionnisme



Apprentissage par renforcement
Apprentissage par renforcement modulaire

  • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori

  • Estimation des paramètres

  • Le dilemme exploration/exploitation

? ?


Lien avec le connexionnisme1
Lien avec le connexionnisme modulaire

  • Dans le réseau

    • Estimation de R : calculée par chaque unité

    • Estimation de T : loi d'apprentissage du réseau

T(s,←,s')

s'

T(s,↑,s'')

similaire à la loi de Hebb

s''

V

R

...

s


Bilan1
Bilan modulaire

  • Une architecture connexionniste pour l’apprentissage par renforcement :

  • Difficulté : taille de l'espace d'états

    • nombre d’itérations pour le point fixe

    • estimation de R et T

environnement

Estimation paramètres

Controle

π

TR

SA

SATR


Plan modulaire

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Repr sentation
Représentation modulaire

Difficile à exploiter


Repr sentation1
Représentation modulaire

Chemin sous-optimal


Repr sentation2
Représentation modulaire

Chemin optimal


Qu est ce qu une bonne repr sentation

Qualité modulaire

Complexité

Qu'est-ce qu'une bonne représentation ?


Mesure de l erreur d approximation

long-terme modulaire

instantané

Mesure de l’erreur d'approximation

  • L’erreur d’approximation définie par

    dépend de l’erreur d’interpolation

    et est le point fixe de

  • Calcul de la politique la plus incertaine

[Munos, 99]


Mesure de l erreur
Mesure de l’erreur modulaire

  • Erreur d’interpolation


Mesure de l erreur1
Mesure de l’erreur modulaire

  • Erreur d’approximation


Mesure de l erreur2
Mesure de l’erreur modulaire

  • Politique la plus incertaine


R duction de l erreur

Qualité modulaire

Spécialisation

Généralisation

Complexité

Réduction de l'erreur


R duction de l erreur1

zones d'intérêt modulaire

Point fixe

Réduction de l’erreur

  • On peut améliorer une approximation...

    …en faisant une descente de gradient :

long-terme

instantané


R duction de l erreur2

Spécialisation modulaire

Généralisation

Réduction de l’erreur

zone d'intérêt


R duction de l erreur3

Spécialisation modulaire

Généralisation

Réduction de l’erreur

  • Nouvelle représentation, nouvelles erreurs


R duction de l erreur4
Réduction de l’erreur modulaire

  • Nouvelle représentation, nouvelles erreurs


R duction de l erreur5
Réduction de l’erreur modulaire

  • Nouvelle représentation, nouvelles erreurs


R duction de l erreur6

Spécialisation modulaire

Généralisation

Réduction de l’erreur

  • Nouvelle représentation, nouvelles erreurs






Bilan2

TR modulaire

App. représentation

π

TR

S

Bilan

  • Une couche fonctionnelle connexionniste supplémentaire

environnement

Estimation paramètres

Controle

π

TR

SA

SATR

Optimisation du rapport complexité / qualité


Plan modulaire

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Apprentissage de repr sentation

mauvaise représentation modulaire

bonne représentation

Apprentissage de représentation

M


Apprentissage de repr sentation1
Apprentissage de représentation modulaire

M4

M2

M3

M1

Avoir une seule représentation peut être insuffisant !


Apprentissage de repr sentation s
Apprentissage de représentation modulaires

M4

M2

M3

M1


Une approche modulaire
Une approche modulaire modulaire

M4

M2

M3

M1


Description
Description modulaire

  • L’apprentissage de représentation c’est :

  • L’auto-organisation modulaire c’est :

Problème de classification : nuées dynamiques


Exp rience
Expérience modulaire

6 tâches à résoudre

3 modules


Exp rience1
Expérience modulaire

3

2

1

Module 1

Module 3

Module 2


Bilan3

TR modulaire

App. représentation

π

TR

Estimation paramètres

Controle

π

TR

S

SA

SATR

Bilan

environnement

TR

App. représentation

π

TR

Estimation paramètres

Controle

TR

S

SA

SATR

Amélioration du rapport complexité / qualité


Plan modulaire

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Conclusions
Conclusions modulaire

  • Construction d'algorithmes connexionnistes ?

  •  Calcul d'un point fixe

  • Application à l'apprentissage par renforcement

  • Grand espace d'états ?

    •  Apprentissage de représentation

  • Multiplicité des problèmes ?

    •  Auto-organisation modulaire

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité


Conclusions1
Conclusions modulaire

  • Schémas d'approximations convergents

    •  Généricité des résultats

  • Validation sur des problèmes complexes

  •  Véhicule de type voiture

  •  Agent autonome devant résoudre une multitude de tâches


Perspectives
Perspectives modulaire

  • Extensions/améliorations des travaux de thèse

    • Gestion adaptative des ressources

    • Coopération des modules

    • Implantation matérielle parallèle

    • Approximateurs de fonctions plus puissants

    • Le dilemme exploration/exploitation

  • Liens avec des travaux de sciences cognitives


ad