Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome
This presentation is the property of its rightful owner.
Sponsored Links
1 / 55

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome PowerPoint PPT Presentation


  • 52 Views
  • Uploaded on
  • Presentation posted in: General

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome. Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet. long-terme. Environnement. action. perception. renforcement. instantané. Construire un agent autonome.

Download Presentation

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulairepour un agent autonome

Bruno Scherrer

6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet


Construire un agent autonome

long-terme

Environnement

action

perception

renforcement

instantané

Construire un agent autonome

  • Calculer une stratégie/politique

  • Exemples

    • marcher

    • conduire une voiture

    • jouer au backgammon


Repr sentation et organisation modulaire

24 V

50000 V

?

Représentation et organisation modulaire

Perception brute

Représentation

Organisation

en modules

spécialisés

Organisation

centralisée


S inspirer d un syst me performant

S'inspirer d'un système performant

  • autonome

  • robuste

  • "anytime"

  • dynamique

  • distribué & parallèle

  • tolérant aux pannes

Algorithmes connexionnistes

réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle


Objectifs

Objectifs

  • Montrer que les problèmes consistant à

    • calculer une stratégie/politique

    • apprendre une représentation

    • organiser un système en modules

      admettent des solutions connexionnistes

      Comprendre les enjeux computationnels

      d'une telle approche


Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Plan

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Algorithmes connexionnistes

sorties

entrées

propagation

synchrone

Loi de

Hebb

Algorithmes connexionnistes

  • Connectivité

  • Activations

  • Loi(s) d'apprentissage

  • (A)synchronisme ?

Système dynamique généralement complexe à analyser et concevoir !


Un calcul connexionniste

t=∞

t=1

M

M

M

M

M

M

...

Point fixe

Contraction

<1

...

Un calcul connexionniste

t=0

Activation

unités


Un calcul connexionniste1

Un calcul connexionniste

  • Calcul du point fixe d'une contraction

    • Solution traditionnelle

    • Solution connexionniste

calcul distribué

parallèle

asynchrone

M

[Bertsekas & Tsitsiklis, 89]


Bilan

Bilan

  • Propriétés du calcul du point fixe…

    • anytime

    • dynamique

  • … avec une méthode connexionniste

    • massivement parallèle

  • Difficulté : taille du réseau

    • nombre d’itérations pour approcher le point fixe


Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Plan

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Contr le optimal

états

long-terme

T(s,a,s’)=P(s’|s,a)

actions

instantané

transition

récompense

R(s)

Contrôle optimal

On cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

 : S → A


Illustration

Plan :

Illustration

Actions


Illustration1

Illustration

  • Récompense


Illustration2

Illustration

  • Fonction de valeur optimale

récompense


Illustration3

Illustration

  • Politique optimale

fonction de valeur optimale


Lien avec le connexionnisme

T(s,←,s')

s'

T(s,↑,s'')

s''

V

R

...

s

Lien avec le connexionnisme


Un calcul dynamique

Un calcul dynamique


Apprentissage par renforcement

Apprentissage par renforcement

  • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori

  • Estimation des paramètres

  • Le dilemme exploration/exploitation

? ?


Lien avec le connexionnisme1

Lien avec le connexionnisme

  • Dans le réseau

    • Estimation de R : calculée par chaque unité

    • Estimation de T : loi d'apprentissage du réseau

T(s,←,s')

s'

T(s,↑,s'')

similaire à la loi de Hebb

s''

V

R

...

s


Bilan1

Bilan

  • Une architecture connexionniste pour l’apprentissage par renforcement :

  • Difficulté : taille de l'espace d'états

    • nombre d’itérations pour le point fixe

    • estimation de R et T

environnement

Estimation paramètres

Controle

π

TR

SA

SATR


Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Plan

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Repr sentation

Représentation

Difficile à exploiter


Repr sentation1

Représentation

Chemin sous-optimal


Repr sentation2

Représentation

Chemin optimal


Qu est ce qu une bonne repr sentation

Qualité

Complexité

Qu'est-ce qu'une bonne représentation ?


Mesure de l erreur d approximation

long-terme

instantané

Mesure de l’erreur d'approximation

  • L’erreur d’approximation définie par

    dépend de l’erreur d’interpolation

    et est le point fixe de

  • Calcul de la politique la plus incertaine

[Munos, 99]


Mesure de l erreur

Mesure de l’erreur

  • Erreur d’interpolation


Mesure de l erreur1

Mesure de l’erreur

  • Erreur d’approximation


Mesure de l erreur2

Mesure de l’erreur

  • Politique la plus incertaine


R duction de l erreur

Qualité

Spécialisation

Généralisation

Complexité

Réduction de l'erreur


R duction de l erreur1

zones d'intérêt

Point fixe

Réduction de l’erreur

  • On peut améliorer une approximation...

    …en faisant une descente de gradient :

long-terme

instantané


R duction de l erreur2

Spécialisation

Généralisation

Réduction de l’erreur

zone d'intérêt


R duction de l erreur3

Spécialisation

Généralisation

Réduction de l’erreur

  • Nouvelle représentation, nouvelles erreurs


R duction de l erreur4

Réduction de l’erreur

  • Nouvelle représentation, nouvelles erreurs


R duction de l erreur5

Réduction de l’erreur

  • Nouvelle représentation, nouvelles erreurs


R duction de l erreur6

Spécialisation

Généralisation

Réduction de l’erreur

  • Nouvelle représentation, nouvelles erreurs


Exp riences 1 2

Expériences (1/2)


Exp riences 1 21

Expériences (1/2)


Exp riences 2 2

Expériences (2/2)


Exp riences 2 21

Expériences (2/2)


Bilan2

TR

App. représentation

π

TR

S

Bilan

  • Une couche fonctionnelle connexionniste supplémentaire

environnement

Estimation paramètres

Controle

π

TR

SA

SATR

Optimisation du rapport complexité / qualité


Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Plan

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Apprentissage de repr sentation

mauvaise représentation

bonne représentation

Apprentissage de représentation

M


Apprentissage de repr sentation1

Apprentissage de représentation

M4

M2

M3

M1

Avoir une seule représentation peut être insuffisant !


Apprentissage de repr sentation s

Apprentissage de représentations

M4

M2

M3

M1


Une approche modulaire

Une approche modulaire

M4

M2

M3

M1


Description

Description

  • L’apprentissage de représentation c’est :

  • L’auto-organisation modulaire c’est :

Problème de classification : nuées dynamiques


Exp rience

Expérience

6 tâches à résoudre

3 modules


Exp rience1

Expérience

3

2

1

Module 1

Module 3

Module 2


Bilan3

TR

App. représentation

π

TR

Estimation paramètres

Controle

π

TR

S

SA

SATR

Bilan

environnement

TR

App. représentation

π

TR

Estimation paramètres

Controle

TR

S

SA

SATR

Amélioration du rapport complexité / qualité


Apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Plan

  • Introduction

  • Un calcul connexionniste

  • Contrôle optimal et apprentissage par renforcement

  • Apprentissage de représentation

  • Auto-organisation modulaire

  • Conclusions et perspectives


Conclusions

Conclusions

  • Construction d'algorithmes connexionnistes ?

  •  Calcul d'un point fixe

  • Application à l'apprentissage par renforcement

  • Grand espace d'états ?

    •  Apprentissage de représentation

  • Multiplicité des problèmes ?

    •  Auto-organisation modulaire

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité


Conclusions1

Conclusions

  • Schémas d'approximations convergents

    •  Généricité des résultats

  • Validation sur des problèmes complexes

  •  Véhicule de type voiture

  •  Agent autonome devant résoudre une multitude de tâches


Perspectives

Perspectives

  • Extensions/améliorations des travaux de thèse

    • Gestion adaptative des ressources

    • Coopération des modules

    • Implantation matérielle parallèle

    • Approximateurs de fonctions plus puissants

    • Le dilemme exploration/exploitation

  • Liens avec des travaux de sciences cognitives


  • Login