1 / 58

Agents apprenants pour l'intelligence ambiante

Agents apprenants pour l'intelligence ambiante. Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima. Encadré par Patrick Reignier et James L. Crowley. Informatique ambiante. [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]. Informatique ubiquitaire.

malissa
Download Presentation

Agents apprenants pour l'intelligence ambiante

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Agents apprenantspour l'intelligence ambiante Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima Encadré par • Patrick Reignier et James L. Crowley Journée rfia : apprentissage et robotique

  2. Informatique ambiante [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996] Informatique ubiquitaire Journée rfia : apprentissage et robotique

  3. Journée rfia : apprentissage et robotique

  4. Journée rfia : apprentissage et robotique

  5. L’informatique ambiante • Dispositifs « autistes » • Indépendants • Hétérogènes • Inconscients • Système ubiquitaire • Accompagner sans s’imposer • En périphérie de l’attention • Invisible • Informatique calme Journée rfia : apprentissage et robotique

  6. Problématique • Context-aware computing+Personnalisation • Situation + utilisateur  action Perception Décision Alice Bob Journée rfia : apprentissage et robotique

  7. Solution proposée Personnalisation par Apprentissage Journée rfia : apprentissage et robotique

  8. Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

  9. Système proposé • Un assistant virtuel qui personnifiele système ubiquitaire • L’assistant • Perçoit le contexte grâce aux capteurs • Exécute des actions grâce aux actionneurs • Reçoit les retours de l’utilisateur pour l’entraînement • Adapte son comportement à ces retours (apprentissage) Journée rfia : apprentissage et robotique

  10. Contraintes • Entraînement simple • Apprentissage rapide • Cohérence au départ • Life long learning • Confiance de l’utilisateur • Transparence [Bellotti et Edwards, 2001] • Système intelligible • Avoir un fonctionnement compris par l’utilisateur • Système « responsable » • Peut s’expliquer système s’adapte aux changements de l’environnement et des préférences Journée rfia : apprentissage et robotique

  11. Exemple Rappel ! hyperion J109 J120 Journée rfia : apprentissage et robotique

  12. Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

  13. Interconnexion des modules Capteurs Actionneurs applications applications Activitéclavier Emails Emails localisation Synthèsevocale présence Contrôledistant Journée rfia : apprentissage et robotique

  14. Base de données • Regroupe • Connaissances statiques • Historique des événements et actions • Permet de fournir des explications • Centralisée • Interrogée • Alimentée • Simplifie les requêtes par tous les modules sur tous les dispositifs Journée rfia : apprentissage et robotique

  15. Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcementdu modèle de contexte • Apprentissage par renforcement • Application de l’apprentissage par renforcement • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

  16. Rappel : nos contraintes • Entraînement simple • Apprentissage rapide • Cohérence au départ • Apprentissage à vie • Explications Supervisé [Brdiczkaet al., 2007] Journée rfia : apprentissage et robotique

  17. Apprentissage par renforcement (AR) • Propriété de Markov • L’état à l’instant t ne dépend que de l’état à l’instant t-1 Journée rfia : apprentissage et robotique

  18. Algorithme standard • q-Learning [Watkins, 1989] • Mise-à-jour des q-valeurs lors d’une nouvelle expérience{état, action, état suivant, récompense} • Lent car ne progresse que lorsque quelque chose se passe • A besoin de beaucoupd’exemples pour apprendre un comportement Journée rfia : apprentissage et robotique

  19. Exemple Rapide Ouvrir la porte Loin de la porte+ Rapide = Modèle du monde Journée rfia : apprentissage et robotique

  20. Architecture dyna [Sutton, 1991] dyna Switch Modèle du monde Monde État Récompense Action Agent Journée rfia : apprentissage et robotique

  21. Modèle du monde Environnement Architecture dyna Interactionsréelles Mise-à-jour Mise-à-jour Utilisation Mise-à-jour Politique Politique Journée rfia : apprentissage et robotique

  22. Modèle du monde Fonctionnement global Perception Politique État Mise-à-jour Interactionsréelles Action Action Récompense ? Exemple Exemple Utilisation Mise-à-jour Récompense Politique Base de données Environnement Journée rfia : apprentissage et robotique

  23. Modèle du monde Modélisation du problème • Composants : • États • Actions • Composants : • Modèle de transition • Modèle de récompense Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

  24. Modèle du monde L’espace d’états • États définis par des prédicats • Humainement compréhensibles (explications) • Exemples : • arrivéeEmail ( de = Marc, à = Bob ) • dansSonBureau ( John ) • État-action : • entrée( ) • Musique en pause Prédicats Interactionsréelles Mise-à-jour Prédicats système Utilisation Mise-à-jour Politique Karl <+> Prédicats environnement Journée rfia : apprentissage et robotique

  25. L’espace d’états • Division d’états • arrivéeEmail( de= directeur, à= <+> ) • Notifier • arrivéeEmail(de = newsletter, à= <+> ) • Ne pas notifier Journée rfia : apprentissage et robotique

  26. Modélisation du problème [Buffet, 2003] • Utilisateur état ? • Oui  état non-observable • Problème non-markovien& Environnement stationnaire • Non état observable • Problème markovien & Environnement non-stationnaire • Apprentissage à vie • Évolutions peu fréquentes de l’environnement • Dyna adapté aux modèles imparfaits • Pdmpo oudec-pdmpo • Résolution exacte très complexe • Méthodes approximatives • Passage à l’échelle de problèmes réels difficile Journée rfia : apprentissage et robotique

  27. Modèle du monde L’espace d’actions • Les actions possibles combinent • Transmettre un rappel à l’utilisateur • Informer d’un nouvel email • Verrouiller l’écran d’un ordinateur • Déverrouiller l’écran d’un ordinateur • Pauser la musique jouant sur un ordinateur • Relancer la musique jouant sur un ordinateur • Ne rien faire Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

  28. Modèle du monde Récompenses • Récompenses explicites • Par une interface non intrusive • Problèmes récompenses utilisateur • Récompenses implicites • Collectées à partir d’indices(valeur numérique moindre) • Utilisation de traces d’éligibilité • Lissage du modèle Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

  29. Modèle du monde Modèle de l’environnement • Construits par apprentissage supervisé • À partir d’exemples réels • Initialisés par le sens commun • Système fonctionnel immédiatement • Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] • Extensibilité Modèle de transition Modèle de récompense Modèle de récompense Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

  30. Modèle de transition Modèle de transition Modèle de récompense Action ou événement s1 s2 + Probabilité États de départ Modifications Journée rfia : apprentissage et robotique

  31. Modèle du monde Apprentissage supervisédu modèle de transition • La base de données contient des exemples{état précédent, action, état suivant} s s’ Mise-à-jour Interactionsréelles t1 t2 Utilisation Mise-à-jour t3 Politique … tn+1 s’ Journée rfia : apprentissage et robotique

  32. Modèle du monde Fonctionnement global Perception Politique État Mise-à-jour Interactionsréelles Action Action Récompense ? Exemple Exemple Utilisation Mise-à-jour Récompense Politique Base de données Environnement Journée rfia : apprentissage et robotique

  33. Modèle du monde Épisode • Un pas d’un épisode en 2 temps : • Sélection d’un événement qui modifie l’état • Sélection d’une action pour réagir à l’événement Mise-à-jour Interactionsréelles Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

  34. Modèle du monde Environnement Épisode Expérience Q-Learning : mise à jour de Politique Mise-à-jour Interactionsréelles Modèle du monde Agent d’AR Utilisation Mise-à-jour Politique ou Politique Appris à partir d’interactions réelles Base de données Journée rfia : apprentissage et robotique

  35. Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Enquête grand public • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

  36. Expérimentations • Enquête grand public  évaluation qualitative • Évaluations quantitatives en 2 étapes : • Évaluation de la phase initiale • Évaluation du système en fonctionnement normal Journée rfia : apprentissage et robotique

  37. Évaluation n°1« autour de l’apprentissage initial » Journée rfia : apprentissage et robotique

  38. Évaluation n°1« autour de l’apprentissage initial » Nombred’itérationspar épisode : Journée rfia : apprentissage et robotique

  39. Évaluation n°2« interactions et apprentissages » Journée rfia : apprentissage et robotique

  40. Évaluation n°2« interactions et apprentissages » Journée rfia : apprentissage et robotique

  41. Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Enquête grand public • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

  42. Contributions • Personnalisation d’un système ubiquitaire • Sans spécification explicite • Évolutive • Adaptation de l’apprentissage par renforcement indirectà un problème réel • Construction d’un modèle du monde • Injection de connaissances initiales • Mise en place d’un prototype Journée rfia : apprentissage et robotique

  43. Perspectives • Analyse non-interactive des données • Interactions avec l’utilisateur • Phase de débriefing Journée rfia : apprentissage et robotique

  44. Conclusion • L’assistant est un moyende faire une application d’intelligence ambiante • C’est l’utilisateur qui le rend intelligent Journée rfia : apprentissage et robotique

  45. Merci de votre attention Questions ? Journée rfia : apprentissage et robotique

  46. Bibliographie Journée rfia : apprentissage et robotique

  47. Bibliographie Journée rfia : apprentissage et robotique

  48. Interconnexion des modules Capteurs Actionneurs applications Activitéclavier applications Emails Emails localisation Synthèsevocale présence Contrôledistant Journée rfia : apprentissage et robotique

  49. Service omiscid Journée rfia : apprentissage et robotique

  50. Définition d’un état Journée rfia : apprentissage et robotique

More Related