Algorithmes de curiosit adaptative en apprentissage auto supervis
This presentation is the property of its rightful owner.
Sponsored Links
1 / 32

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé PowerPoint PPT Presentation


  • 61 Views
  • Uploaded on
  • Presentation posted in: General

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé. Adrien Baranès. Inria Bordeaux Sud-Ouest Equipe-Projet Flowers. Université P.&M. Curie, Paris. Robotique traditionnelle. Utilisation d’un modèle du monde. Machine capable de très bien effectuer un nombre limité de taches.

Download Presentation

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Algorithmes de curiosit adaptative en apprentissage auto supervis

Algorithmes deCuriosité Adaptative en Apprentissage Auto-Supervisé

Adrien Baranès

InriaBordeaux Sud-Ouest

Equipe-Projet Flowers

Université P.&M. Curie, Paris


Algorithmes de curiosit adaptative en apprentissage auto supervis

Robotique traditionnelle

Utilisation d’un modèle du monde

Machine capable de très bien effectuer un nombre limité de taches

Robotique développementale

Modèle du monde non nécessaire

Machine capable de bien effectuer un nombre de taches non limité

Apprentissage du fonctionnement de l’espace des configurations


Algorithmes de curiosit adaptative en apprentissage auto supervis

Développement Mental chez la Machine

Développement Mental Humain

Environnement physique réel

Développement prénatal

Développement postnatal

Développement mental autonome

Programme développemental du génome

Esprit à la naissance

Esprit adulte

Programme développemental dans l’esprit de la machine jeune

Programme développemental dans l’esprit adulte


Algorithmes de curiosit adaptative en apprentissage auto supervis

Développement Mental Autonome

?

Comment l’ enfant s’intéresse t-il aux choses ?

Comment différencier différentes situations ?

Qu’est-ce qui rend une situationintéressante?

Qu’est-ce que la curiosité ?


Algorithmes de curiosit adaptative en apprentissage auto supervis

Motivations intrinsèques : Théories en psychologie

White (1959) : Exposition des formes basiques de motivations

Berlyne (1960), Csikszentmihalyi (1996) :

Recherche de situations nouvelles, surprenantes, incongrues, cognitivement dissonantes…

Anxiété

Position optimale de Flow

Challenges

Ennui

Qualifications


Algorithmes de curiosit adaptative en apprentissage auto supervis

Motivations intrinsèques : Neurosciences

Dayan & Belleine (2002), Kakade and Dayan (2002) :

Les circuits dopaminergiques pourraient être impliqués dans le contrôle de comportements d’exploration et de recherche de nouveauté

  • Horvitz (2000) :

  • Certaines réponses dopaminergiques peuvent être interprétées comme signalant des erreurs en prédictions sensorielles

  • Sutoo & Akiyama (2004)

  • Découverte de l’augmentation de la transmission de dopamine lors d’une écoute musicale


Algorithmes de curiosit adaptative en apprentissage auto supervis

Comment implémenter un système de Motivations Intrinsèques dans un Robot ?


Avoir envie de rechercher d explorer ce qu on ne sait pas

Avoir envie de rechercher, d’explorer ce qu’on ne sait pas

Qu’est-ce qu’être curieux ?

Un robot peut-il savoir qu’il ne sait pas ?


Algorithmes de curiosit adaptative en apprentissage auto supervis

Le monde vu par le Robot

Instant t

Instant t+1

Signal sensoriel 1

Machine de Prédiction

Signal sensoriel 2

(Réseaux neuronaux,

k-ppv, SVM..)

Signal moteur 1

Signal moteur 2


Algorithmes de curiosit adaptative en apprentissage auto supervis

Quantité d’apprentissage

Prédiction de l’état sensoriel pour l’instant t+1

S’(t+1)

Erreur en prédiction :

E(t) = (S’(t+1) – S(t+1))²

-

Evaluation des performances immédiates

Etant sensoriel réel à l’instant t+1

S(t+1)


Algorithmes de curiosit adaptative en apprentissage auto supervis

Progrès en apprentissage : Diminution des Erreurs

?

Erreur de prédiction

Sommes nous dans un même contexte sensorimoteur ?

Dans une unique situation ?

Temps

Notion d’Intérêt

On calcule la dérivée des erreurs au cours du temps


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe récursive de l’espace sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe récursive de l’espace sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe récursive de l’espace sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe récursive de l’espace sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe récursive de l’espace sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe récursive de l’espace sensorimoteur

Vocalisation

Vision

Marche

Ecoute


Algorithmes de curiosit adaptative en apprentissage auto supervis

Algorithme IAC :Curiosité AdaptativeIntelligente


Algorithmes de curiosit adaptative en apprentissage auto supervis

Objectifs

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?


Algorithmes de curiosit adaptative en apprentissage auto supervis

Mode de découpe des régions : Selon les Variances


Algorithmes de curiosit adaptative en apprentissage auto supervis

Mode de découpe des régions : Selon les Dérivées

Taux d’erreur

Temps


Algorithmes de curiosit adaptative en apprentissage auto supervis

Espace Sensorimoteur 1D

Niveau de difficulté de l’apprentissage

Bruit

Difficulté croissante

Bruit

Sorties

Entrées Sensorimotrices


Algorithmes de curiosit adaptative en apprentissage auto supervis

Mode de découpe des régions


Algorithmes de curiosit adaptative en apprentissage auto supervis

Objectifs

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?


Algorithmes de curiosit adaptative en apprentissage auto supervis

Méthodes d’exploration

Dans 30% des cas : Exploration Uniforme, Sinon :

Meilleure Dérivée

Dérivées Proportionnelles

Minimisation de l’Erreur en Exploration

Minimisation de l’Erreur en Exploitation

Considération de l’ennui

Exploration prudente


Algorithmes de curiosit adaptative en apprentissage auto supervis

Comparaison des résultats

Mode de comparaison des résultats : le Taux d’Erreur

Base de comparaison : Exploration uniforme de l’espace

4%

Uniforme

0.5%

Meilleure dérivée

1000

Nombre d’itérations

10000


Algorithmes de curiosit adaptative en apprentissage auto supervis

Comparaison des résultats

Mode de sélection : Dérivées proportionnelles

4%

Uniforme

Meilleure dérivée

Dérivées proportionnelles

0.5%

1000

Nombre d’itérations

10000


Algorithmes de curiosit adaptative en apprentissage auto supervis

Comparaison des résultats

Mode de sélection : Minimisation de l’erreur en Exploration

Uniforme

4%

Meilleure dérivée

Dérivées proportionnelles

0.5%

Minimisation de l’erreur

1000

Nombre d’itérations

10000


Algorithmes de curiosit adaptative en apprentissage auto supervis

Objectifs

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?


Algorithmes de curiosit adaptative en apprentissage auto supervis

Aspect Comportemental

Temps total passé à l’apprentissage de l’espace sensorimoteur

Difficulté croissante

Itérations

Espace Sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Découpe de l’espace sensorimoteur


Algorithmes de curiosit adaptative en apprentissage auto supervis

Conclusion et Perspectives

Mode de découpe de régions sensorimotrices

Politiques de choix des régions

Outils de visualisation du comportement de l’IAC

Analyse du comportement de l’algorithme dans des dimensions supérieures

Effectuer des taches de Visual-Servoing

& comparaison avec les algorithmes existants

Lien avec la théorie des options


  • Login