Agents apprenants pour l'intelligence ambiante

Agents apprenantspour l'intelligence ambiante Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima Encadré par • Patrick Reignier et James L. Crowley Journée rfia : apprentissage et robotique

Informatique ambiante [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996] Informatique ubiquitaire Journée rfia : apprentissage et robotique

Journée rfia : apprentissage et robotique

L’informatique ambiante • Dispositifs « autistes » • Indépendants • Hétérogènes • Inconscients • Système ubiquitaire • Accompagner sans s’imposer • En périphérie de l’attention • Invisible • Informatique calme Journée rfia : apprentissage et robotique

Problématique • Context-aware computing+Personnalisation • Situation + utilisateur  action Perception Décision Alice Bob Journée rfia : apprentissage et robotique

Solution proposée Personnalisation par Apprentissage Journée rfia : apprentissage et robotique

Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

Système proposé • Un assistant virtuel qui personnifiele système ubiquitaire • L’assistant • Perçoit le contexte grâce aux capteurs • Exécute des actions grâce aux actionneurs • Reçoit les retours de l’utilisateur pour l’entraînement • Adapte son comportement à ces retours (apprentissage) Journée rfia : apprentissage et robotique

Contraintes • Entraînement simple • Apprentissage rapide • Cohérence au départ • Life long learning • Confiance de l’utilisateur • Transparence [Bellotti et Edwards, 2001] • Système intelligible • Avoir un fonctionnement compris par l’utilisateur • Système « responsable » • Peut s’expliquer système s’adapte aux changements de l’environnement et des préférences Journée rfia : apprentissage et robotique

Exemple Rappel ! hyperion J109 J120 Journée rfia : apprentissage et robotique

Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

Interconnexion des modules Capteurs Actionneurs applications applications Activitéclavier Emails Emails localisation Synthèsevocale présence Contrôledistant Journée rfia : apprentissage et robotique

Base de données • Regroupe • Connaissances statiques • Historique des événements et actions • Permet de fournir des explications • Centralisée • Interrogée • Alimentée • Simplifie les requêtes par tous les modules sur tous les dispositifs Journée rfia : apprentissage et robotique

Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcementdu modèle de contexte • Apprentissage par renforcement • Application de l’apprentissage par renforcement • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

Rappel : nos contraintes • Entraînement simple • Apprentissage rapide • Cohérence au départ • Apprentissage à vie • Explications Supervisé [Brdiczkaet al., 2007] Journée rfia : apprentissage et robotique

Apprentissage par renforcement (AR) • Propriété de Markov • L’état à l’instant t ne dépend que de l’état à l’instant t-1 Journée rfia : apprentissage et robotique

Algorithme standard • q-Learning [Watkins, 1989] • Mise-à-jour des q-valeurs lors d’une nouvelle expérience{état, action, état suivant, récompense} • Lent car ne progresse que lorsque quelque chose se passe • A besoin de beaucoupd’exemples pour apprendre un comportement Journée rfia : apprentissage et robotique

Exemple Rapide Ouvrir la porte Loin de la porte+ Rapide = Modèle du monde Journée rfia : apprentissage et robotique

Architecture dyna [Sutton, 1991] dyna Switch Modèle du monde Monde État Récompense Action Agent Journée rfia : apprentissage et robotique

Modèle du monde Environnement Architecture dyna Interactionsréelles Mise-à-jour Mise-à-jour Utilisation Mise-à-jour Politique Politique Journée rfia : apprentissage et robotique

Modèle du monde Fonctionnement global Perception Politique État Mise-à-jour Interactionsréelles Action Action Récompense ? Exemple Exemple Utilisation Mise-à-jour Récompense Politique Base de données Environnement Journée rfia : apprentissage et robotique

Modèle du monde Modélisation du problème • Composants : • États • Actions • Composants : • Modèle de transition • Modèle de récompense Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

Modèle du monde L’espace d’états • États définis par des prédicats • Humainement compréhensibles (explications) • Exemples : • arrivéeEmail ( de = Marc, à = Bob ) • dansSonBureau ( John ) • État-action : • entrée( ) • Musique en pause Prédicats Interactionsréelles Mise-à-jour Prédicats système Utilisation Mise-à-jour Politique Karl <+> Prédicats environnement Journée rfia : apprentissage et robotique

L’espace d’états • Division d’états • arrivéeEmail( de= directeur, à= <+> ) • Notifier • arrivéeEmail(de = newsletter, à= <+> ) • Ne pas notifier Journée rfia : apprentissage et robotique

Modélisation du problème [Buffet, 2003] • Utilisateur état ? • Oui  état non-observable • Problème non-markovien& Environnement stationnaire • Non état observable • Problème markovien & Environnement non-stationnaire • Apprentissage à vie • Évolutions peu fréquentes de l’environnement • Dyna adapté aux modèles imparfaits • Pdmpo oudec-pdmpo • Résolution exacte très complexe • Méthodes approximatives • Passage à l’échelle de problèmes réels difficile Journée rfia : apprentissage et robotique

Modèle du monde L’espace d’actions • Les actions possibles combinent • Transmettre un rappel à l’utilisateur • Informer d’un nouvel email • Verrouiller l’écran d’un ordinateur • Déverrouiller l’écran d’un ordinateur • Pauser la musique jouant sur un ordinateur • Relancer la musique jouant sur un ordinateur • Ne rien faire Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

Modèle du monde Récompenses • Récompenses explicites • Par une interface non intrusive • Problèmes récompenses utilisateur • Récompenses implicites • Collectées à partir d’indices(valeur numérique moindre) • Utilisation de traces d’éligibilité • Lissage du modèle Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

Modèle du monde Modèle de l’environnement • Construits par apprentissage supervisé • À partir d’exemples réels • Initialisés par le sens commun • Système fonctionnel immédiatement • Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] • Extensibilité Modèle de transition Modèle de récompense Modèle de récompense Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

Modèle de transition Modèle de transition Modèle de récompense Action ou événement s1 s2 + Probabilité États de départ Modifications Journée rfia : apprentissage et robotique

Modèle du monde Apprentissage supervisédu modèle de transition • La base de données contient des exemples{état précédent, action, état suivant} s s’ Mise-à-jour Interactionsréelles t1 t2 Utilisation Mise-à-jour t3 Politique … tn+1 s’ Journée rfia : apprentissage et robotique

Modèle du monde Fonctionnement global Perception Politique État Mise-à-jour Interactionsréelles Action Action Récompense ? Exemple Exemple Utilisation Mise-à-jour Récompense Politique Base de données Environnement Journée rfia : apprentissage et robotique

Modèle du monde Épisode • Un pas d’un épisode en 2 temps : • Sélection d’un événement qui modifie l’état • Sélection d’une action pour réagir à l’événement Mise-à-jour Interactionsréelles Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique

Modèle du monde Environnement Épisode Expérience Q-Learning : mise à jour de Politique Mise-à-jour Interactionsréelles Modèle du monde Agent d’AR Utilisation Mise-à-jour Politique ou Politique Appris à partir d’interactions réelles Base de données Journée rfia : apprentissage et robotique

Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Enquête grand public • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

Expérimentations • Enquête grand public  évaluation qualitative • Évaluations quantitatives en 2 étapes : • Évaluation de la phase initiale • Évaluation du système en fonctionnement normal Journée rfia : apprentissage et robotique

Évaluation n°1« autour de l’apprentissage initial » Journée rfia : apprentissage et robotique

Évaluation n°1« autour de l’apprentissage initial » Nombred’itérationspar épisode : Journée rfia : apprentissage et robotique

Évaluation n°2« interactions et apprentissages » Journée rfia : apprentissage et robotique

Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Enquête grand public • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique

Contributions • Personnalisation d’un système ubiquitaire • Sans spécification explicite • Évolutive • Adaptation de l’apprentissage par renforcement indirectà un problème réel • Construction d’un modèle du monde • Injection de connaissances initiales • Mise en place d’un prototype Journée rfia : apprentissage et robotique

Perspectives • Analyse non-interactive des données • Interactions avec l’utilisateur • Phase de débriefing Journée rfia : apprentissage et robotique

Conclusion • L’assistant est un moyende faire une application d’intelligence ambiante • C’est l’utilisateur qui le rend intelligent Journée rfia : apprentissage et robotique

Merci de votre attention Questions ? Journée rfia : apprentissage et robotique

Bibliographie Journée rfia : apprentissage et robotique

Interconnexion des modules Capteurs Actionneurs applications Activitéclavier applications Emails Emails localisation Synthèsevocale présence Contrôledistant Journée rfia : apprentissage et robotique

Service omiscid Journée rfia : apprentissage et robotique

Définition d’un état Journée rfia : apprentissage et robotique

Agents apprenants pour l'intelligence ambiante

Agents apprenants pour l'intelligence ambiante

Presentation Transcript

Ouvrir la classe de langue sur le monde pour motiver les apprenants et modifier la relation enseignant-apprenants

Combiner des apprenants: le boosting

Agents

D veloppement d outils pour le suivi linguistique des apprenants dans les universit s fran aises

Alignement dans une architecture d'intelligence ambiante

L'intelligence artificielle

L'intelligence artificielle

Vers une approche multi-environnements pour les agents

Public cible les apprenants de la 3AEF

Les systèmes multi-agents pour les Environnements Virtuels de Formation.

Les Systèmes Multi-Agents pour la Gestion de Production

Motiver les apprenants en communiquant pour de vrai: A pproche actionnelle et web 2.0

Projet MERLIN Un Centre de Ressources pour les Apprenants FLE et pour les Enseignants FLE

L'intelligence artificielle

Approches Multi-Agents pour les Environnements Interactifs d'Apprentissage avec Ordinateur

La mobilité des apprenants

Le portfolio numérique : un atout pour les citoyens apprenants

Les systèmes apprenants et leur régulation Un savoir pour agir

Spécificités de l’informatique ambiante

Je ris pour m’amuser de tout, Je ris pour m’amuser de la bêtise ambiante,

Agents

L'intelligence artificielle