algorithmes de curiosit adaptative en apprentissage auto supervis
Download
Skip this Video
Download Presentation
Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Loading in 2 Seconds...

play fullscreen
1 / 32

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé - PowerPoint PPT Presentation


  • 83 Views
  • Uploaded on

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé. Adrien Baranès. Inria Bordeaux Sud-Ouest Equipe-Projet Flowers. Université P.&M. Curie, Paris. Robotique traditionnelle. Utilisation d’un modèle du monde. Machine capable de très bien effectuer un nombre limité de taches.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé' - demi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
algorithmes de curiosit adaptative en apprentissage auto supervis

Algorithmes deCuriosité Adaptative en Apprentissage Auto-Supervisé

Adrien Baranès

InriaBordeaux Sud-Ouest

Equipe-Projet Flowers

Université P.&M. Curie, Paris

slide2

Robotique traditionnelle

Utilisation d’un modèle du monde

Machine capable de très bien effectuer un nombre limité de taches

Robotique développementale

Modèle du monde non nécessaire

Machine capable de bien effectuer un nombre de taches non limité

Apprentissage du fonctionnement de l’espace des configurations

slide3

Développement Mental chez la Machine

Développement Mental Humain

Environnement physique réel

Développement prénatal

Développement postnatal

Développement mental autonome

Programme développemental du génome

Esprit à la naissance

Esprit adulte

Programme développemental dans l’esprit de la machine jeune

Programme développemental dans l’esprit adulte

slide4

Développement Mental Autonome

?

Comment l’ enfant s’intéresse t-il aux choses ?

Comment différencier différentes situations ?

Qu’est-ce qui rend une situationintéressante?

Qu’est-ce que la curiosité ?

slide5

Motivations intrinsèques : Théories en psychologie

White (1959) : Exposition des formes basiques de motivations

Berlyne (1960), Csikszentmihalyi (1996) :

Recherche de situations nouvelles, surprenantes, incongrues, cognitivement dissonantes…

Anxiété

Position optimale de Flow

Challenges

Ennui

Qualifications

slide6

Motivations intrinsèques : Neurosciences

Dayan & Belleine (2002), Kakade and Dayan (2002) :

Les circuits dopaminergiques pourraient être impliqués dans le contrôle de comportements d’exploration et de recherche de nouveauté

  • Horvitz (2000) :
  • Certaines réponses dopaminergiques peuvent être interprétées comme signalant des erreurs en prédictions sensorielles
  • Sutoo & Akiyama (2004)
  • Découverte de l’augmentation de la transmission de dopamine lors d’une écoute musicale
avoir envie de rechercher d explorer ce qu on ne sait pas
Avoir envie de rechercher, d’explorer ce qu’on ne sait pas

Qu’est-ce qu’être curieux ?

Un robot peut-il savoir qu’il ne sait pas ?

slide9

Le monde vu par le Robot

Instant t

Instant t+1

Signal sensoriel 1

Machine de Prédiction

Signal sensoriel 2

(Réseaux neuronaux,

k-ppv, SVM..)

Signal moteur 1

Signal moteur 2

slide10

Quantité d’apprentissage

Prédiction de l’état sensoriel pour l’instant t+1

S’(t+1)

Erreur en prédiction :

E(t) = (S’(t+1) – S(t+1))²

-

Evaluation des performances immédiates

Etant sensoriel réel à l’instant t+1

S(t+1)

slide11

Progrès en apprentissage : Diminution des Erreurs

?

Erreur de prédiction

Sommes nous dans un même contexte sensorimoteur ?

Dans une unique situation ?

Temps

Notion d’Intérêt

On calcule la dérivée des erreurs au cours du temps

slide19

Objectifs

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?

slide22

Espace Sensorimoteur 1D

Niveau de difficulté de l’apprentissage

Bruit

Difficulté croissante

Bruit

Sorties

Entrées Sensorimotrices

slide24

Objectifs

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?

slide25

Méthodes d’exploration

Dans 30% des cas : Exploration Uniforme, Sinon :

Meilleure Dérivée

Dérivées Proportionnelles

Minimisation de l’Erreur en Exploration

Minimisation de l’Erreur en Exploitation

Considération de l’ennui

Exploration prudente

slide26

Comparaison des résultats

Mode de comparaison des résultats : le Taux d’Erreur

Base de comparaison : Exploration uniforme de l’espace

4%

Uniforme

0.5%

Meilleure dérivée

1000

Nombre d’itérations

10000

slide27

Comparaison des résultats

Mode de sélection : Dérivées proportionnelles

4%

Uniforme

Meilleure dérivée

Dérivées proportionnelles

0.5%

1000

Nombre d’itérations

10000

slide28

Comparaison des résultats

Mode de sélection : Minimisation de l’erreur en Exploration

Uniforme

4%

Meilleure dérivée

Dérivées proportionnelles

0.5%

Minimisation de l’erreur

1000

Nombre d’itérations

10000

slide29

Objectifs

Proposer des moyens de découpe capable de correspondre aux différences entre les situations

Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal

Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme

Comment sélectionner l’action qui apporte le plus de progrès ?

slide30

Aspect Comportemental

Temps total passé à l’apprentissage de l’espace sensorimoteur

Difficulté croissante

Itérations

Espace Sensorimoteur

slide32

Conclusion et Perspectives

Mode de découpe de régions sensorimotrices

Politiques de choix des régions

Outils de visualisation du comportement de l’IAC

Analyse du comportement de l’algorithme dans des dimensions supérieures

Effectuer des taches de Visual-Servoing

& comparaison avec les algorithmes existants

Lien avec la théorie des options

ad