470 likes | 688 Views
Soutenance de Thèse. Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives. présentée par. Habiboulaye AMADOU BOUBACAR. Directeur de thèse : Salah MAOUCHE Co-directeur : Stéphane LEC Œ UCHE. Thèse. Financement de la Thèse: MENRT
E N D
Soutenance de Thèse Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives présentée par Habiboulaye AMADOU BOUBACAR Directeur de thèse : Salah MAOUCHE Co-directeur : Stéphane LECŒUCHE 1
Thèse • Financement de la Thèse: MENRT • Laboratoires de recherche • LAGIS-UMR-CNRS 8146, Université Lille 1 • Equipe « Ingénierie de la Décision » (ID) • Thème « Apprentissage Dynamique et Décision » • Ecole des Mines de Douai • Dépt «Génie Informatique et Productique » (GIP) • Equipe «Systèmes et Processus Industriels » SPI 2
Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 3
Contexte général • Apprentissage automatique (Machine Learning) • Conférer des facultés d’apprentissage à un système • La plupart de systèmes d’apprentissage • Capacités de Mémorisation : Mémoire (Exemple : Apprendre Alphabet : « A, B, C, … ») • Capacités de Généralisation : Règles (Exemple : Lecture : « KA TCHARRA ») • Et, si les connaissances évoluent dans le temps ? • Limitations des systèmes classiques • Capacités d’adaptation nécessaires 4
Quelques exemples • Reconnaissance de visages • Vieillissement des individus • Évolutions : caractéristiques physiques • Diagnostic médical • Expansion de cancers • Supervision des processus industriels • Commutations de modes de fonctionnement • Évolutions de modes de fonctionnement • Capacités d’adaptation et suivi d’évolutions • Mise à jour (continue) des connaissances 5
Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 6
Entrées Sorties Processus Interactions avec l’environnement Classification dynamique • Données non-stationnaires • Données issues de processus à comportement évolutif • Les paramètres des modèles de classes évoluent • Evolutions • Modifications locales • Evolutions (avec glissement) rapide, lente, … • Approche : Reconnaissance de Formes • Modélisation de l’état du processus • Extraction des informations pertinentes • Vecteur forme = Données • Modélisation des connaissances utiles • Classification des données • Apprentissage de classes (statiques) Extraction Filtrage 7
Classification non-supervisée Classes d’appartenance des données: non connues Apprentissage en ligne Incorporation récursive des nouvelles informations Mise à jour du modèle de connaissances Modélisation adaptative et suivi de classes Environnement non-stationnaire Apparition de nouvelles classes Fusion de classes Scission de classes Elimination de classes parasites ou obsolètes Problématique 8
Travaux antérieurs • ISODATA (Hall et Ball, 1965; Hall et Khanna, 1977) • Algorithme de "Centres-mobiles" doté des procédures de Fusion, Scission et Elimination • Algorithmes à architectures neuronales • LAMBDA (Piela et al. 1989) • FMMC (Simpson, 1993) • CDL (Eltoft, 1998) • ESOM (Deng et Kasabov, 2003) • Limitations majeures • Modèle de classification • Processus d’apprentissage 9
Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 10
Formalisation (1/2) C1 C2 Cm x1 CM xd xD • Partition dynamique et Modèle de classification • Architecture neuronale • Couche d’entrée : données • Couche cachée : paramètres • Couche de sortie : classes • Connexions entre les neurones • Faire évoluer l’architecture 11
Formalisation (2/2) • Modèle de classification • S’adapter correctement à la distribution de données • Mise à jour récursive en environnement non-stationnaire • Processus de classification dynamique Classification en ligne Affectation de données Mise à jour récursive du modèle de classification 12
Critère de similarité • Classification en ligne : Critère de similarité • Mesure de similarité : proximité géométrique • Critère : Ensemble de classes gagnantes 13
Processus d’apprentissage • Processus de classification dynamique • Critère de similarité : Règles de décision • Procédures de mise à jour du modèle de classification 14
Processus d’apprentissage • Règles de décision et Procédures de mise à jour • Cas 1 card(win) = 0 Procédure de Création • Cas 2 card(win) = 1 Procédure d’Adaptation • Cas 3 card(win) ≥ 2 Procédure de Fusion • Cas 4 T données Procédure d’Évaluation Cas 1: Création Cas 3: Fusion Cas 2: Adaptation Cas 4: Elimination 15
Classifieurs dynamiques • AUDyC : Modèles de Mélange • SAKM : SVM & Méthodes à noyau 16
Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 17
Modèles de mélange • Modèles de mélange [Govaert, 2003] • Outils statistiques performants en classification • Décomposition de la loi de densité parente • Formalisation générale: diverses lois de densité • Mélange gaussien : le plus utilisé • Approximation justifiée dans la plupart de problèmes • Outils mathématiques relativement bien maîtrisés • Maximisation de la loi de vraisemblance • EM [Dempster et al., 1977]; CEM [Celeux et al., 1995] • Compétitive EM [Zhang et al., 2003] : Fusion & Scission • Peu d’algorithmes en ligne [Same et al., 2004] 18
AUDyC : Modèle de classification • Mélange gaussien: approche multimodale • Classe = un ou plusieurs prototypes gaussiens • Fonction Objectif : • Maximisation de vraisemblance 19
AUDyC : Critère de similarité • Fonction d’appartenance • Mesure de similarité • Classes et prototypes gagnants 20
AUDyC : Procédure de Création • Création de classes • Initialisation de prototypes • Comment déterminer Σini ? • Extraire préalablement un Échantillon • Hypothèse simplificatrice : 21
AUDyC : Procédure d’Adaptation • Adaptation récursive de Prototypes/Classes • De la règle de décision : • Ajout et retrait d’information sur une fenêtre 22
Erreurs de modélisation (a) Erreurs de modélisation (b) Données ambiguës (c) AUDyC : Procédure de Fusion • Problématique d’ambiguïté • Si fusion • Si Adaptation 23
Défaut AUDyC : Procédure de scission • Défaut de modélisation 24
Simulation de l’AUDyC • Simulation 1 : 2 classes évolutives générées (1000 données/classe) • Simulation 2 : 1 classe statique (1000 données), 2 classes évolutives qui fusionnent (2000 données/classe) • Limitations de l’AUDyC • Modèle paramétrique : données générées suivant la loi gaussienne • Complexité algorithmique : grande dimension • Capacités d’adaptation en Environnement non-stationnaire : Création de classes, Adaptation et Suivi de classes évolutives, Fusion de classes 25
Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 26
SVM et Méthodes à noyau • SVM et Méthodes à noyau [Schölkopf et al., 2003] • Outils récents, Résultats attractifs en classification • Apprentissage statistique [Vapnik, 1995] • Minimisation de risque et Régularisation • Espace de Hilbert à noyau reproduisant (RKHS) • Estimateur de densité : méthodes à noyau • Bonnes capacités de généralisation • Modèle non paramétrique (Noyau RBF: universalité) • SVM mono-classe en ligne: [Gretton & al., 2003; Desobry et al., 2005] et [Kivinen et al., 2004] 27
MSV Outlier SAKM : Modèle de classification • Espace RKHS • Modèle de classe • Fonction objectif 28
SAKM : Critère de similarité • Mesure de similarité à noyau • Critère : classes gagnantes 29
SAKM : Création et Mise à jour • Création de classes • Adaptation de classe • Gradient stochastique 30
SAKM : Procédure de Fusion • Fusion de classes • Critère d’ambiguïté • Opération de fusion • Calculer 31
Simulation du SAKM • Simulation 1 : 2 classes évolutives générées (1000 données/classe) • Simulation 2 : 1 classe statique (1000 données), 2 classes évolutives qui fusionnent (2000 données/classe) • Capacités d’adaptation en Environnement non-stationnaire : Création de classes, Adaptation et Suivi de classes évolutives, Fusion de classes 32
AUDyC : Paramètres de modèle SAKM : Paramètres de modèle Paramètres des algorithmes • Paramètres de robustesse (commun) • Initialisation des paramètres 33
AUDyC Mélange gaussien multimodal - Approximation, Loi gaussienne Processus d’apprentissage - Modèles successifs exacts - Scission de classes Complexité algorithmique - Polynomial : O(D3xJ2xL) - Ordre 3 avec la dimension Robustesse au bruit - Moins sensible au bruit SAKM Fonctions d’apprentissage à noyau - Distribution inconnue Processus d’apprentissage - Modèles successifs approximatifs - Pas de scission de classes Complexité algorithmique - Polynomial : O(Dxד2xMxL) - Linéaire avec la dimension Robustesse au bruit - Plus sensible au bruit Comparaison : AUDyC vs SAKM • Données de distribution gaussienne et de dimension faible : AUDyC • Distribution de données inconnue ou de plus grande dimension : SAKM 34
Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 35
Vase Débit chaud Débit froid Réchauffeur Echangeur Pressure Système client Pompe Filtre Surveillance de Processus • Projet ADEME (n° 0274032) • Surveillance en ligne d’un processus thermique • Objectif : Détecter l’encrassement des composants • Intérêt des techniques de classification dynamique 36
Surveillance de Processus • Mise au point du système de surveillance • Modélisation de l’état du processus : vecteur forme • Rapport de pressions : ΔPcomp. / ΔPpompe • Sensibilité aux pertes de pression au sein du composant • Modélisation en ligne du mode de fonctionnement • Algorithmes de classification dynamique • Apprentissage continu des modes et suivi d’évolutions • Suivre le mode courant du processus • Labelliser les nouveaux modes détectés - Modes de défaut - Encrassement simulé par des vannes • Détection de l’encrassement • Mode courant similaire au mode normal : Pas d’alerte • Mode courant évolue vers un mode de défaut : Alerte 37
EENC FENC MFN MFN EENC RENC RENC FENC Résultats • SAKM • Apprentissage des modes • Suivi d’évolution et détection • AUDyC • Apprentissage des modes • Suivi d’évolution et détection 38
Surveillance de Processus • Mise au point d’un prototype opérationnel • Interface Utilisateur : Logiciel réalisé avec Python 39
Conclusion • Apprentissage Automatique : Classification dynamique • Difficultés : apprendre les connaissances de façon continue • Nécessité : modélisation adaptative et du suivi d’évolutions • Algorithmes originaux de classification dynamique • Techniques avancées de traitement de signal et de RdF • Capacités d’adaptation en environnement non-stationnaire • Mise au point de SAD opérationnels • Couplage avec des outils supplémentaires (outils détection) • Utilisables dans divers domaines (Diagnostic médical, Maintenance industrielle, Alerte sismique, …) 40
Perspectives • Amélioration des algorithmes proposés • SAKM : Règle de scission, Règle de mise à jour exacte • AUDyC : Mise à jour de la famille exponentielle • Approfondir l’étude théorique pour les deux algorithmes • Aide au réglage des paramètres • Compléter l’étude de convergence • Validation sur d’autres applications • Supervision des processus industriels • Suivi de Processus hybrides • Détection de rupture (exemple: dans les signaux audio) 41
What else ? 42
http://babarazi.free.fr Merci pour votre attention Je suis à votre disposition habiboulaye@gmail.com 43