Algorithmes de curiosit adaptative en apprentissage auto supervis
Download
1 / 32

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé - PowerPoint PPT Presentation


  • 82 Views
  • Uploaded on

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé. Adrien Baranès. Inria Bordeaux Sud-Ouest Equipe-Projet Flowers. Université P.&M. Curie, Paris. Robotique traditionnelle. Utilisation d’un modèle du monde. Machine capable de très bien effectuer un nombre limité de taches.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé' - demi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Algorithmes de curiosit adaptative en apprentissage auto supervis

Algorithmes deCuriosité Adaptative en Apprentissage Auto-Supervisé

Adrien Baranès

InriaBordeaux Sud-Ouest

Equipe-Projet Flowers

Université P.&M. Curie, Paris


Robotique traditionnelle

Utilisation d’un modèle du monde

Machine capable de très bien effectuer un nombre limité de taches

Robotique développementale

Modèle du monde non nécessaire

Machine capable de bien effectuer un nombre de taches non limité

Apprentissage du fonctionnement de l’espace des configurations


Développement Mental chez la Machine

Développement Mental Humain

Environnement physique réel

Développement prénatal

Développement postnatal

Développement mental autonome

Programme développemental du génome

Esprit à la naissance

Esprit adulte

Programme développemental dans l’esprit de la machine jeune

Programme développemental dans l’esprit adulte


Développement Mental Autonome

?

Comment l’ enfant s’intéresse t-il aux choses ?

Comment différencier différentes situations ?

Qu’est-ce qui rend une situationintéressante?

Qu’est-ce que la curiosité ?


Motivations intrinsèques : Théories en psychologie

White (1959) : Exposition des formes basiques de motivations

Berlyne (1960), Csikszentmihalyi (1996) :

Recherche de situations nouvelles, surprenantes, incongrues, cognitivement dissonantes…

Anxiété

Position optimale de Flow

Challenges

Ennui

Qualifications


Motivations intrinsèques : Neurosciences

Dayan & Belleine (2002), Kakade and Dayan (2002) :

Les circuits dopaminergiques pourraient être impliqués dans le contrôle de comportements d’exploration et de recherche de nouveauté

  • Horvitz (2000) :

  • Certaines réponses dopaminergiques peuvent être interprétées comme signalant des erreurs en prédictions sensorielles

  • Sutoo & Akiyama (2004)

  • Découverte de l’augmentation de la transmission de dopamine lors d’une écoute musicale



Avoir envie de rechercher d explorer ce qu on ne sait pas
Avoir envie de rechercher, d’explorer ce qu’on ne sait pas

Qu’est-ce qu’être curieux ?

Un robot peut-il savoir qu’il ne sait pas ?


Le monde vu par le Robot pas

Instant t

Instant t+1

Signal sensoriel 1

Machine de Prédiction

Signal sensoriel 2

(Réseaux neuronaux,

k-ppv, SVM..)

Signal moteur 1

Signal moteur 2


Quantité d’apprentissage pas

Prédiction de l’état sensoriel pour l’instant t+1

S’(t+1)

Erreur en prédiction :

E(t) = (S’(t+1) – S(t+1))²

-

Evaluation des performances immédiates

Etant sensoriel réel à l’instant t+1

S(t+1)


Progrès en apprentissage : Diminution des Erreurs pas

?

Erreur de prédiction

Sommes nous dans un même contexte sensorimoteur ?

Dans une unique situation ?

Temps

Notion d’Intérêt

On calcule la dérivée des erreurs au cours du temps







Découpe récursive de l’espace sensorimoteur pas

Vocalisation

Vision

Marche

Ecoute


Algorithme IAC : pasCuriosité AdaptativeIntelligente


Objectifs pas

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?



Mode de découpe des régions : Selon les pasDérivées

Taux d’erreur

Temps


Espace Sensorimoteur 1D pas

Niveau de difficulté de l’apprentissage

Bruit

Difficulté croissante

Bruit

Sorties

Entrées Sensorimotrices



Objectifs pas

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?


Méthodes d’exploration pas

Dans 30% des cas : Exploration Uniforme, Sinon :

Meilleure Dérivée

Dérivées Proportionnelles

Minimisation de l’Erreur en Exploration

Minimisation de l’Erreur en Exploitation

Considération de l’ennui

Exploration prudente


Comparaison des résultats pas

Mode de comparaison des résultats : le Taux d’Erreur

Base de comparaison : Exploration uniforme de l’espace

4%

Uniforme

0.5%

Meilleure dérivée

1000

Nombre d’itérations

10000


Comparaison des résultats pas

Mode de sélection : Dérivées proportionnelles

4%

Uniforme

Meilleure dérivée

Dérivées proportionnelles

0.5%

1000

Nombre d’itérations

10000


Comparaison des résultats pas

Mode de sélection : Minimisation de l’erreur en Exploration

Uniforme

4%

Meilleure dérivée

Dérivées proportionnelles

0.5%

Minimisation de l’erreur

1000

Nombre d’itérations

10000


Objectifs pas

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?


Aspect Comportemental pas

Temps total passé à l’apprentissage de l’espace sensorimoteur

Difficulté croissante

Itérations

Espace Sensorimoteur



Conclusion et Perspectives pas

Mode de découpe de régions sensorimotrices

Politiques de choix des régions

Outils de visualisation du comportement de l’IAC

Analyse du comportement de l’algorithme dans des dimensions supérieures

Effectuer des taches de Visual-Servoing

& comparaison avec les algorithmes existants

Lien avec la théorie des options


ad