Olivier Sigaud ISIR Olivier.Sigaud@lip6.fr 01.44.27.88.53

Apprentissage du contrôle moteur : le geste élémentaire Olivier Sigaud ISIR Olivier.Sigaud@lip6.fr 01.44.27.88.53

Introduction générale

Nature de l’IA • Un modèle est une construction intellectuelle visant à expliquer des données expérimentales • Un système est un artefact doté de propriétés désirables • IA : faire des modèles (de l’intellect) qui sont aussi des systèmes • Human Problem Solving : données expérimentales sur la résolution de problème chez l’homme => GPS • Déboires de l’IA symbolique « forte » : + de systèmes, moins de modèles

Approche animat • Ancrée dans l’interaction avec l’environnement • Centrée sur les mécanismes adaptatifs du vivant • Apprentissage, évolution, développement • Adaptation face à l’imprévu • Fort ancrage dans la neurophysiologie • Modèles animaux pour des systèmes « simples »

Des robots robustes, mais simplistes Raisonnement Langage, symboles Planification Sélection de l’action Navigation

Des robots complexes, mais fragiles Faire face à la fragilité des systèmes « ingénieur »

Approche animat et contrôle moteur Raisonnement Langage, symboles Planification Navigation Sélection de l’action Commande motrice

Objectifs complémentaires Commande des systèmes redondants, contraints et sous-actionnés Modélisation et compréhension du système moteur humain Assistance, et rééducation de pathologies neuro-motrices

Cadre idéal pour la modélisation • Complexité mécanique et automatique : les biologistes ont besoin des « théoriciens » • Complexité des fonctions motrices à réaliser : les théoriciens ont besoin des biologistes (la bonne vieille automatique ne suffit pas) • Des retombées fondamentales importantes du côté des pathologies (maladie de Parkinson, hémiplégie…) • Des retombées applicatives importantes du côté de la robotique et des humains virtuels

DINO – Assistance au mvt pathologique Mouvements de référence observateur prédictif neuronal S Etat/Comportement postural Superviseur flou Compensation des réflexes pathologiques via un robot d’assistance Intention/Etat Le robot comme support de modélisation

DINO – Réhabilitation neuro-motrice Pasqui, et al. (2007). Pathological sit-to-stand models for control of a rehabilitation robotic device. IEEE ICRR, 347-355

Applications : mini-robots Un marché en croissance fulgurante Bon cadre pour l’apprentissage, faute de modèles précis (bruit) Servo-moteurs Robonova

Applications : HRP-2 Cadre d’un projet franco-japonais Un défi technologique ASIMO, HOAP3, iCub… Intermédiaire : NAO Servo-moteurs encore… HRP-2

Applications : Arboris Un simulateur flexible Commande en couples plutôt que servo-moteurs Commande en muscles si on veut… Plate-forme idéale pour la modélisation et la mise au point de l’apprentissage Arboris

Bras commandé en muscles

Le contrôle moteur humain

Un système extrêmement complexe • Système poly-articulé, redondant, non-holonome, sous-actionné, sur-actionné… • Plus de 200 os • Environ 600 muscles • Système Soumis à des contraintes d’équilibre, fragile • Capteurs/actionneurs imprécis et très lents • Grande complexité des aires cérébrales impliquées dans le contrôle moteur

Une littérature considérable • Albus 72 : CMAC… • Avancée très rapide des neurosciences (imagerie) • Manque de compréhension globale • Rôle clef des modélisateurs, théoriciens et roboticiens • Modèles computationnels vs neuro-mimétiques

Invariants, synergies • Nombreux invariants malgré la redondance • Ils peuvent venir : • du système musculo-squelettique • de la formulation des tâches • de la structure du contrôleur • de critères écologiques

Invariants du contrôle moteur (1) Courbure des mouvements de reaching (loi de puissance 2/3) Profil de vitesse en cloche

Invariants du contrôle moteur (2) Dispersion terminale = f(direction du but)

Loi de Fitts (précision/vitesse) Model Plus on a besoin de précision terminale, moins on va vite

Latences dans la commande • Visco-élasticité musculaire : immédiat • Boucles spinales : 30-60 ms • Mésencéphale : 90 ms • Boucles supérieures : …> 150 ms

Principes de commande

Minimum jerk • Flash et Hogan, 85 :douceur : le geste humain minimise l’intégrale de la secousse (jerk, dérivée de l’accélération) • Problème : ne rend pas compte de la courbure des grands gestes

Minimum torque change • Uno et al., 89 : douceur : le geste humain minimise les variations de couples moteurs • Problème : pourquoi ces critères-là, estimés comment ? • Quel avantage sélectif pour la « douceur » ?

Suivi de trajectoire / commande directe • Le minimum jerk est un critère « cinématique » : il porte sur la trajectoire, pas sur les couples musculaires qui permettent de la réaliser • Recherche d’une trajectoire optimale de référence, puis suivi de cette trajectoire • Au contraire, le minimum torque change impose d’optimiser directement les couples musculaires : pas de séparation entre détermination d’une trajectoire et exécution • Dualité au cœur des modèles récents (cf. cours 3)

Commande en feedback : instabilité Nécessité du feedforward pour stabiliser

Bruit moteur • Présence d’un bruit moteur proportionnel à la commande • S’accumule au cours du temps, donc nuit à la précision • Critère = minimiser la variance terminale • La commande minimise l’activité musculaire pour minimiser le bruit moteur • Minimum intervention principle (Todorov&Jordan) • Elle joue sur les DdL redondants : le bruit est concentré sur les dimensions non pertinentes pour la tâche

Architecture de commande

SOFC • La commande est stochastique (tient compte du bruit) • Elle est optimale (minimise un critère) • Elle est en feedback (correction de trajectoire en fonction de l’état courant) • Harris&Wolpert 98 (OFC + bruit moteur) • Todorov 02, 04 (SOFC) • Guigon 07 (TOFC) • Guigon : l’atteinte du but n’est pas un critère à optimiser, c’est une des contraintes

Méthodes candidates • Commande optimale : problèmes d’applicabilité en grandes dimensions • Thèse Weiwei Li (06) : méthodes itératives, iLQG (10 DdL) • Fast NMPC (Diehl 06) : 30 DdL • Natural Policy Gradient (Peters 07) : robots réels • Dans tous les cas, technicité mathématique, optimisation • Suppose l’accès à un modèle de la dynamique • Le modèle de la dynamique est généralement donné

Adaptation motrice

Paradigme expérimental Shadmehr et Mussa-Ivaldi 94

Déviation due au champ de force Shadmehr et Mussa-Ivaldi 94

Correction progressive Shadmehr et Mussa-Ivaldi 94

After-effect • After-effect : si on retire brutalement le champ, la main réalise une trajectoire symétrique

Conclusions 1 • Hypothèse 1 : le crochet final vers le but résulte du déclenchement d’un module de correction (replanification) • Hypothèse 2 : le crochet final vers le but résulte d’une commande en feedback • Hypothèse 3 : la correction progressive résulte d’un apprentissage du modèle de la dynamique • Simulation : H2 + H3 expliquent les données • Généralisation motrice : trouver la forme du modèle corrigé par l’apprentissage (paramètres et fonction d’approximation)

Vision « batch » de l’apprentissaged’un modèle

Vision incrémentale (1)

Vision incrémentale (4) Ne prend pas en compte le problème de la perception indirecte de l’état du système

SOFC : Wolpert et al.

L’état est caché

Pourquoi c’est plus dur… • En cas d’erreur sur Y estimé, faut-il corriger l’estimateur sensoriel, l’estimation d’état courante ou bien l’estimateur d’état ? L’état est une variable cachée… • Filtre de Kalman : estimation et apprentissage optimal • Mais couplage avec commande optimale • Voir Weiwei Li 2006 (Todorov)

Généralisation motrice

Paradigme expérimental Le sujet apprend dans un des domaines (par exemple à droite) puis est testé dans un autre (par exemple à gauche) Va-t-il transposer le champ appris ?

Jacobienne dx Déplacement d’un point de fonctionnement dans un référentiel lié à un but dy dq3 dq2 Déplacement des angles articulaires dq1 X=(x,y) Q=(q1,q2,q3) dX = J(Q) dQ

Résultats • Trajectoires de la main dans un espace de travail 2 après avoir appris le champ dans un espace 1. On joue sur la forme du champ • Hyp A : généralisation dans l’espace de la tâche (invariant par translation) • Hyp B : généralisation dans l’espace articulaire (couples invariants) • En modifiant la forme des champs, résultat = B l’emporte sur A

Olivier Sigaud ISIR Olivier.Sigaud@lip6.fr 01.44.27.88.53

Olivier Sigaud ISIR Olivier.Sigaud@lip6.fr 01.44.27.88.53

Presentation Transcript

Analyzing the ISIR

Olivier Bohuon

Olivier BRIAC

OLIVIER ARBEQUINA

ISIR Tanaka lab. Tatsuya Hori

Jako Olivier

fr → y fr y fr → ail fr ail

LIP6 - AnimatLab

Prat Olivier

Claudel Olivier

Olivier Sigaud ISIR Olivier.Sigaud@lip6.fr

Olivier Geoffroy

Olivier Rukundo

TuanLoc NGUYEN – Lip6 Guy PUJOLLE – Lip6 Francine KRIEF – LaBRI

Olivier Pantalé

Olivier Sirjean

Olivier Losson

CLANET Olivier

Bonjour Olivier,

Olivier Geoffroy