apprentissage de repr sentation et auto organisation modulaire pour un agent autonome
Download
Skip this Video
Download Presentation
Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Loading in 2 Seconds...

play fullscreen
1 / 55

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome - PowerPoint PPT Presentation


  • 83 Views
  • Uploaded on

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome. Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet. long-terme. Environnement. action. perception. renforcement. instantané. Construire un agent autonome.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Apprentissage de représentation et auto-organisation modulaire pour un agent autonome' - tave


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
apprentissage de repr sentation et auto organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulairepour un agent autonome

Bruno Scherrer

6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet

construire un agent autonome
long-terme

Environnement

action

perception

renforcement

instantané

Construire un agent autonome
  • Calculer une stratégie/politique
  • Exemples
    • marcher
    • conduire une voiture
    • jouer au backgammon
repr sentation et organisation modulaire
24 V

50000 V

?

Représentation et organisation modulaire

Perception brute

Représentation

Organisation

en modules

spécialisés

Organisation

centralisée

s inspirer d un syst me performant
S'inspirer d'un système performant
  • autonome
  • robuste
  • "anytime"
  • dynamique
  • distribué & parallèle
  • tolérant aux pannes

Algorithmes connexionnistes

réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle

objectifs
Objectifs
  • Montrer que les problèmes consistant à
    • calculer une stratégie/politique
    • apprendre une représentation
    • organiser un système en modules

admettent des solutions connexionnistes

Comprendre les enjeux computationnels

d'une telle approche

slide6
Plan
  • Introduction
  • Un calcul connexionniste
  • Contrôle optimal et apprentissage par renforcement
  • Apprentissage de représentation
  • Auto-organisation modulaire
  • Conclusions et perspectives
algorithmes connexionnistes
sorties

entrées

propagation

synchrone

Loi de

Hebb

Algorithmes connexionnistes
  • Connectivité
  • Activations
  • Loi(s) d'apprentissage
  • (A)synchronisme ?

Système dynamique généralement complexe à analyser et concevoir !

un calcul connexionniste
t=∞

t=1

M

M

M

M

M

M

...

Point fixe

Contraction

<1

...

Un calcul connexionniste

t=0

Activation

unités

un calcul connexionniste1
Un calcul connexionniste
  • Calcul du point fixe d'une contraction
    • Solution traditionnelle
    • Solution connexionniste

calcul distribué

parallèle

asynchrone

M

[Bertsekas & Tsitsiklis, 89]

bilan
Bilan
  • Propriétés du calcul du point fixe…
    • anytime
    • dynamique
  • … avec une méthode connexionniste
    • massivement parallèle
  • Difficulté : taille du réseau
    • nombre d’itérations pour approcher le point fixe
slide11
Plan
  • Introduction
  • Un calcul connexionniste
  • Contrôle optimal et apprentissage par renforcement
  • Apprentissage de représentation
  • Auto-organisation modulaire
  • Conclusions et perspectives
contr le optimal
états

long-terme

T(s,a,s’)=P(s’|s,a)

actions

instantané

transition

récompense

R(s)

Contrôle optimal

On cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

 : S → A

illustration1
Illustration
  • Récompense
illustration2
Illustration
  • Fonction de valeur optimale

récompense

illustration3
Illustration
  • Politique optimale

fonction de valeur optimale

lien avec le connexionnisme
T(s,←,s')

s'

T(s,↑,s'')

s''

V

R

...

s

Lien avec le connexionnisme
apprentissage par renforcement
Apprentissage par renforcement
  • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori
  • Estimation des paramètres
  • Le dilemme exploration/exploitation

? ?

lien avec le connexionnisme1
Lien avec le connexionnisme
  • Dans le réseau
    • Estimation de R : calculée par chaque unité
    • Estimation de T : loi d'apprentissage du réseau

T(s,←,s')

s'

T(s,↑,s'')

similaire à la loi de Hebb

s''

V

R

...

s

bilan1
Bilan
  • Une architecture connexionniste pour l’apprentissage par renforcement :
  • Difficulté : taille de l'espace d'états
    • nombre d’itérations pour le point fixe
    • estimation de R et T

environnement

Estimation paramètres

Controle

π

TR

SA

SATR

slide22
Plan
  • Introduction
  • Un calcul connexionniste
  • Contrôle optimal et apprentissage par renforcement
  • Apprentissage de représentation
  • Auto-organisation modulaire
  • Conclusions et perspectives
repr sentation
Représentation

Difficile à exploiter

repr sentation1
Représentation

Chemin sous-optimal

repr sentation2
Représentation

Chemin optimal

mesure de l erreur d approximation
long-terme

instantané

Mesure de l’erreur d'approximation
  • L’erreur d’approximation définie par

dépend de l’erreur d’interpolation

et est le point fixe de

  • Calcul de la politique la plus incertaine

[Munos, 99]

mesure de l erreur
Mesure de l’erreur
  • Erreur d’interpolation
mesure de l erreur1
Mesure de l’erreur
  • Erreur d’approximation
mesure de l erreur2
Mesure de l’erreur
  • Politique la plus incertaine
r duction de l erreur
Qualité

Spécialisation

Généralisation

Complexité

Réduction de l'erreur
r duction de l erreur1
zones d'intérêt

Point fixe

Réduction de l’erreur
  • On peut améliorer une approximation...

…en faisant une descente de gradient :

long-terme

instantané

r duction de l erreur2
Spécialisation

Généralisation

Réduction de l’erreur

zone d'intérêt

r duction de l erreur3
Spécialisation

Généralisation

Réduction de l’erreur
  • Nouvelle représentation, nouvelles erreurs
r duction de l erreur4
Réduction de l’erreur
  • Nouvelle représentation, nouvelles erreurs
r duction de l erreur5
Réduction de l’erreur
  • Nouvelle représentation, nouvelles erreurs
r duction de l erreur6
Spécialisation

Généralisation

Réduction de l’erreur
  • Nouvelle représentation, nouvelles erreurs
bilan2
TR

App. représentation

π

TR

S

Bilan
  • Une couche fonctionnelle connexionniste supplémentaire

environnement

Estimation paramètres

Controle

π

TR

SA

SATR

Optimisation du rapport complexité / qualité

slide43
Plan
  • Introduction
  • Un calcul connexionniste
  • Contrôle optimal et apprentissage par renforcement
  • Apprentissage de représentation
  • Auto-organisation modulaire
  • Conclusions et perspectives
apprentissage de repr sentation1
Apprentissage de représentation

M4

M2

M3

M1

Avoir une seule représentation peut être insuffisant !

description
Description
  • L’apprentissage de représentation c’est :
  • L’auto-organisation modulaire c’est :

Problème de classification : nuées dynamiques

exp rience
Expérience

6 tâches à résoudre

3 modules

exp rience1
Expérience

3

2

1

Module 1

Module 3

Module 2

bilan3
TR

App. représentation

π

TR

Estimation paramètres

Controle

π

TR

S

SA

SATR

Bilan

environnement

TR

App. représentation

π

TR

Estimation paramètres

Controle

TR

S

SA

SATR

Amélioration du rapport complexité / qualité

slide52
Plan
  • Introduction
  • Un calcul connexionniste
  • Contrôle optimal et apprentissage par renforcement
  • Apprentissage de représentation
  • Auto-organisation modulaire
  • Conclusions et perspectives
conclusions
Conclusions
  • Construction d'algorithmes connexionnistes ?
  •  Calcul d'un point fixe
  • Application à l'apprentissage par renforcement
  • Grand espace d'états ?
    •  Apprentissage de représentation
  • Multiplicité des problèmes ?
    •  Auto-organisation modulaire

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité

conclusions1
Conclusions
  • Schémas d'approximations convergents
    •  Généricité des résultats
  • Validation sur des problèmes complexes
  •  Véhicule de type voiture
  •  Agent autonome devant résoudre une multitude de tâches
perspectives
Perspectives
  • Extensions/améliorations des travaux de thèse
    • Gestion adaptative des ressources
    • Coopération des modules
    • Implantation matérielle parallèle
    • Approximateurs de fonctions plus puissants
    • Le dilemme exploration/exploitation
  • Liens avec des travaux de sciences cognitives
ad