180 likes | 229 Views
Étude de l’article : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S Kamini Koza 95.
E N D
Étude de l’article :« Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment »de S Kamini Koza 95 Apprentissage comportemental et coopération individuelle d’agents autonomes comme résultat des interactions dynamiques avec l’environnement
Introduction • Reprise d’un article de Luc Steels sur une expérience de coopération individuelle d’agents autonomes. • Modélisation orientée comportements • Émergences d’une coopération entre agents • Objectif: Trouver ces schémas comportementaux par la programmation génétique
Organisation de la présentation • Présentation de l’expérience de Luc Steels • La simulation de S.Kamini • Améliorations apportées
Expérience de Luc Steels • Contexte • Approches dominantes dans le domaine de la planification: • Architecture subsumption, modélisation orientée objectif, mécanisme de sélection d’action. • Approche alternative,celle de L. Steels • Le comportement d’un agent résulte de l’interaction dynamique avec son environnement • Modélisation orientée comportement • Illustrée par une expérience : la coopération dans un SMA • Approche traditionnelle : Modélisation de ces accointances, puis négociation par la communication • Approche Proposée: coopération forcée par l’environnement, émergente des actions individuelles des agents, non explicitement programmée
Expérience de Luc Steels • Description du système • Comportant : • Au moins 2 robots, • Des lampes émettant de la lumière jaune • Un chargeur émettant de la lumière bleue • Des obstacles • Dynamique énergétique
Expérience de Luc Steels • Modélisation du robot • Effecteurs: un moteur sur chaque roue, émission sonore quand la batterie est faible • Senseurs: Niveau de la batterie, Photo-senseurs Bumpers, Infrarouges • Utilisés pour modéliser 6 comportements bien calibrés permettant sa survie : • Coordination des roues pour avancer • Attraction par les lumières bleues • Arrêt du robot lorsqu’il se recharge • Attraction par les lumières jaunes • Contournent direct des obstacles • Contournement doux des obstacles
Expérience de S Kamini • Objectif : • démontrer que le robot peut apprendre ces schémas comportementaux grâce à l’utilisation de la PG • La fitness • Force l’émergence d’une coopération • Illustré par une simulation simplifiée de l’expérience de L Steels • Découverte d’un seul comportement : apprendre à aller se recharger
Simulation de l’expérience de Steels • Environnement simulé • Terrain 10x10 • 3 lampes : • Capacité initiale: 12 unités, • se charge de 2/cycle jusqu’à 120 • se vide de 7 unités au contact d’un robot • 2 Robots • Cap. Initiale = cap. max de 80 • Se décharge de 1/cycle • Se recharge à une vitesse de 6/cycle • 1 chargeur • Pas d’information • Pas d’obstacle : simplification
Expérience de S. Kamini • Modélisation des Robots pour la GP • terminaux : 5 actions, combinaison des effecteurs • Avancer, reculer, tourner à droite ou à gauche, s’arrêter • Fonctions : 8 conditions, combinaison des senseurs • Senseurs internes • IFDIE: batterie faible • IFCHARGED: batterie en bon état • Senseurs externes • IFLGR : si l’intensité des lampes est plus forte à gauche qu’à droite • IFOBA: si un obstacle est devant • IFCSA: si le chargeur est devant • IFACS : si le robot est sur le chargeur • IFAL : si l’obstacle devant est une lampe (connaissance impossible) • IFSYSUNSAFE: si la batterie des trois lampes est bientôt au maximum (connaissance impossible)
Expérience de S Kamini • Déroulement de l’expérience • Robots hétérogènes: • 1 RPB par robot et 1 ADF devant contenir un comportement • (convergence plus difficile et méthode pas très utile pour l’exp.) • Critères d’arrêt d’une simulation : • Les deux robots sont morts • Toutes les lampes sont aux maximum (pas nécessaire) • La fitness utilisée • La simulation arrive à 100 cycles ( trop peu ) • Les 2 robots sont vivants • Les 3 lampes sont aux maximum • Sur une population de 10000 individus, • Avec 100 générations maximum
Expérience de S Kamini • Résultats • Solution Médiocre • Solution optimale au bout de 76 générations • Un seul comportement a visiblement émergé: l’attraction vers le chargeur • Programme complexe • Pourquoi ? • Simplification de l’environnement : • Pas de prise en compte de la distance pour calculer l’intensité reçue, • Mauvais paramétrage de la dynamique énergétique qui induit de mauvais comportements • Simplification du Robot • Mauvais opérateurs • Nombre de cycle de simulation trop faibles
Améliorations apportées • Objectifs • Trouver plus de schémas • Approche • Un environnement plus réaliste • Vision plus proche de l’expérience de Steels
Améliorations apportées • Changement au niveau de la simulation • Calcul de l’intensité lumineuse • Contrainte sur le chargement • Paramétrage de la dynamique énergétique
Améliorations apportées • Changement des opérateurs • De nouveaux opérateurs • IFMBA : « if max blue intensity ahead » • IFMYA: « if max yellow intensity ahead » • IFAMB,IFAMY : « if at max intensity blue , yellow » • IFSAFE,IFDIE : paramètres batterie • IFOBB: « if obstacle back » • IFHEARDSOUND: fonction communication
Améliorations apportées • Expériences effectuées: • Robots homogènes et hétérogènes • Critère d’arrêt de la simulation: augmentation du nombre de cycles • Fitness • Ajustement plus fin • Ajout d’un critère de complexité du programme
Expériences effectuées: Les résultats: Programmes simplifiés Schémas comportementaux identifiables Moins de générations nécessaires Comportement non prévu: « le radar » (IFSAFE (IFMYA (IFOBA BACK FOWARD) LEFT) (IFAMB (IFMYA BACK HALT) (IFMBA FOWARD (IFDIE LEFT (IFOBA BACK FOWARD))))) Améliorations apportées
Améliorations apportées • Expériences effectuées: • Courbe fitness
Conclusion • Les solutions de Kamini ne sont pas satisfaisantes à cause de: • Un paramétrage du système mal calibré • Des opérateurs mal adaptés • Mes apports • L’intérêt de la PG est validé: car: • Les solutions sont proches de l’objectif • Le programme trouve seul ces comportements • Les paramètres de l’expérience de Steel sont respectés