Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

Soutenance de Thèse Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives présentée par Habiboulaye AMADOU BOUBACAR Directeur de thèse : Salah MAOUCHE Co-directeur : Stéphane LECŒUCHE 1

Thèse • Financement de la Thèse: MENRT • Laboratoires de recherche • LAGIS-UMR-CNRS 8146, Université Lille 1 • Equipe « Ingénierie de la Décision » (ID) • Thème « Apprentissage Dynamique et Décision » • Ecole des Mines de Douai • Dépt «Génie Informatique et Productique » (GIP) • Equipe «Systèmes et Processus Industriels » SPI 2

Plan • Introduction • Classification dynamique : Problématique • Description générique de classifieurs dynamiques • Algorithmes de classification dynamique • AUDyC (AUto-Adaptive & Dynamical Clustering) • SAKM (Self-Adaptive Kernel Machine) • Expérimentation • Conclusion et Perspectives 3

Contexte général • Apprentissage automatique (Machine Learning) • Conférer des facultés d’apprentissage à un système • La plupart de systèmes d’apprentissage • Capacités de Mémorisation : Mémoire (Exemple : Apprendre Alphabet : « A, B, C, … ») • Capacités de Généralisation : Règles (Exemple : Lecture : « KA TCHARRA ») • Et, si les connaissances évoluent dans le temps ? • Limitations des systèmes classiques • Capacités d’adaptation nécessaires 4

Quelques exemples • Reconnaissance de visages • Vieillissement des individus • Évolutions : caractéristiques physiques • Diagnostic médical • Expansion de cancers • Supervision des processus industriels • Commutations de modes de fonctionnement • Évolutions de modes de fonctionnement • Capacités d’adaptation et suivi d’évolutions • Mise à jour (continue) des connaissances 5

Entrées Sorties Processus Interactions avec l’environnement Classification dynamique • Données non-stationnaires • Données issues de processus à comportement évolutif • Les paramètres des modèles de classes évoluent • Evolutions • Modifications locales • Evolutions (avec glissement) rapide, lente, … • Approche : Reconnaissance de Formes • Modélisation de l’état du processus • Extraction des informations pertinentes • Vecteur forme = Données • Modélisation des connaissances utiles • Classification des données • Apprentissage de classes (statiques) Extraction Filtrage 7

Classification non-supervisée Classes d’appartenance des données: non connues Apprentissage en ligne Incorporation récursive des nouvelles informations Mise à jour du modèle de connaissances Modélisation adaptative et suivi de classes Environnement non-stationnaire Apparition de nouvelles classes Fusion de classes Scission de classes Elimination de classes parasites ou obsolètes Problématique 8

Travaux antérieurs • ISODATA (Hall et Ball, 1965; Hall et Khanna, 1977) • Algorithme de "Centres-mobiles" doté des procédures de Fusion, Scission et Elimination • Algorithmes à architectures neuronales • LAMBDA (Piela et al. 1989) • FMMC (Simpson, 1993) • CDL (Eltoft, 1998) • ESOM (Deng et Kasabov, 2003) • Limitations majeures • Modèle de classification • Processus d’apprentissage 9

Formalisation (1/2) C1 C2 Cm x1 CM xd xD • Partition dynamique et Modèle de classification • Architecture neuronale • Couche d’entrée : données • Couche cachée : paramètres • Couche de sortie : classes • Connexions entre les neurones • Faire évoluer l’architecture 11

Formalisation (2/2) • Modèle de classification • S’adapter correctement à la distribution de données • Mise à jour récursive en environnement non-stationnaire • Processus de classification dynamique Classification en ligne Affectation de données Mise à jour récursive du modèle de classification 12

Critère de similarité • Classification en ligne : Critère de similarité • Mesure de similarité : proximité géométrique • Critère : Ensemble de classes gagnantes 13

Processus d’apprentissage • Processus de classification dynamique • Critère de similarité : Règles de décision • Procédures de mise à jour du modèle de classification 14

Processus d’apprentissage • Règles de décision et Procédures de mise à jour • Cas 1 card(win) = 0  Procédure de Création • Cas 2 card(win) = 1  Procédure d’Adaptation • Cas 3 card(win) ≥ 2  Procédure de Fusion • Cas 4 T données  Procédure d’Évaluation Cas 1: Création Cas 3: Fusion Cas 2: Adaptation Cas 4: Elimination 15

Classifieurs dynamiques • AUDyC : Modèles de Mélange • SAKM : SVM & Méthodes à noyau 16

Modèles de mélange • Modèles de mélange [Govaert, 2003] • Outils statistiques performants en classification • Décomposition de la loi de densité parente • Formalisation générale: diverses lois de densité • Mélange gaussien : le plus utilisé • Approximation justifiée dans la plupart de problèmes • Outils mathématiques relativement bien maîtrisés • Maximisation de la loi de vraisemblance • EM [Dempster et al., 1977]; CEM [Celeux et al., 1995] • Compétitive EM [Zhang et al., 2003] : Fusion & Scission • Peu d’algorithmes en ligne [Same et al., 2004] 18

AUDyC : Modèle de classification • Mélange gaussien: approche multimodale • Classe = un ou plusieurs prototypes gaussiens • Fonction Objectif : • Maximisation de vraisemblance 19

AUDyC : Critère de similarité • Fonction d’appartenance • Mesure de similarité • Classes et prototypes gagnants 20

AUDyC : Procédure de Création • Création de classes • Initialisation de prototypes • Comment déterminer Σini ? • Extraire préalablement un Échantillon • Hypothèse simplificatrice : 21

AUDyC : Procédure d’Adaptation • Adaptation récursive de Prototypes/Classes • De la règle de décision : • Ajout et retrait d’information sur une fenêtre 22

Erreurs de modélisation (a) Erreurs de modélisation (b) Données ambiguës (c) AUDyC : Procédure de Fusion • Problématique d’ambiguïté • Si fusion • Si Adaptation 23

Défaut AUDyC : Procédure de scission • Défaut de modélisation 24

Simulation de l’AUDyC • Simulation 1 : 2 classes évolutives générées (1000 données/classe) • Simulation 2 : 1 classe statique (1000 données), 2 classes évolutives qui fusionnent (2000 données/classe) • Limitations de l’AUDyC • Modèle paramétrique : données générées suivant la loi gaussienne • Complexité algorithmique : grande dimension • Capacités d’adaptation en Environnement non-stationnaire : Création de classes, Adaptation et Suivi de classes évolutives, Fusion de classes 25

SVM et Méthodes à noyau • SVM et Méthodes à noyau [Schölkopf et al., 2003] • Outils récents, Résultats attractifs en classification • Apprentissage statistique [Vapnik, 1995] • Minimisation de risque et Régularisation • Espace de Hilbert à noyau reproduisant (RKHS) • Estimateur de densité : méthodes à noyau • Bonnes capacités de généralisation • Modèle non paramétrique (Noyau RBF: universalité) • SVM mono-classe en ligne: [Gretton & al., 2003; Desobry et al., 2005] et [Kivinen et al., 2004] 27

MSV Outlier SAKM : Modèle de classification • Espace RKHS • Modèle de classe • Fonction objectif 28

SAKM : Critère de similarité • Mesure de similarité à noyau • Critère : classes gagnantes 29

SAKM : Création et Mise à jour • Création de classes • Adaptation de classe • Gradient stochastique 30

SAKM : Procédure de Fusion • Fusion de classes • Critère d’ambiguïté • Opération de fusion • Calculer 31

Simulation du SAKM • Simulation 1 : 2 classes évolutives générées (1000 données/classe) • Simulation 2 : 1 classe statique (1000 données), 2 classes évolutives qui fusionnent (2000 données/classe) • Capacités d’adaptation en Environnement non-stationnaire : Création de classes, Adaptation et Suivi de classes évolutives, Fusion de classes 32

AUDyC : Paramètres de modèle SAKM : Paramètres de modèle Paramètres des algorithmes • Paramètres de robustesse (commun) • Initialisation des paramètres 33

AUDyC Mélange gaussien multimodal - Approximation, Loi gaussienne Processus d’apprentissage - Modèles successifs exacts - Scission de classes Complexité algorithmique - Polynomial : O(D3xJ2xL) - Ordre 3 avec la dimension Robustesse au bruit - Moins sensible au bruit SAKM Fonctions d’apprentissage à noyau - Distribution inconnue Processus d’apprentissage - Modèles successifs approximatifs - Pas de scission de classes Complexité algorithmique - Polynomial : O(Dxד2xMxL) - Linéaire avec la dimension Robustesse au bruit - Plus sensible au bruit Comparaison : AUDyC vs SAKM • Données de distribution gaussienne et de dimension faible : AUDyC • Distribution de données inconnue ou de plus grande dimension : SAKM 34

Vase Débit chaud Débit froid Réchauffeur Echangeur Pressure Système client Pompe Filtre Surveillance de Processus • Projet ADEME (n° 0274032) • Surveillance en ligne d’un processus thermique • Objectif : Détecter l’encrassement des composants • Intérêt des techniques de classification dynamique 36

Surveillance de Processus • Mise au point du système de surveillance • Modélisation de l’état du processus : vecteur forme • Rapport de pressions : ΔPcomp. / ΔPpompe • Sensibilité aux pertes de pression au sein du composant • Modélisation en ligne du mode de fonctionnement • Algorithmes de classification dynamique • Apprentissage continu des modes et suivi d’évolutions • Suivre le mode courant du processus • Labelliser les nouveaux modes détectés - Modes de défaut - Encrassement simulé par des vannes • Détection de l’encrassement • Mode courant similaire au mode normal : Pas d’alerte • Mode courant évolue vers un mode de défaut : Alerte 37

EENC FENC MFN MFN EENC RENC RENC FENC Résultats • SAKM • Apprentissage des modes • Suivi d’évolution et détection • AUDyC • Apprentissage des modes • Suivi d’évolution et détection 38

Surveillance de Processus • Mise au point d’un prototype opérationnel • Interface Utilisateur : Logiciel réalisé avec Python 39

Conclusion • Apprentissage Automatique : Classification dynamique • Difficultés : apprendre les connaissances de façon continue • Nécessité : modélisation adaptative et du suivi d’évolutions • Algorithmes originaux de classification dynamique • Techniques avancées de traitement de signal et de RdF • Capacités d’adaptation en environnement non-stationnaire • Mise au point de SAD opérationnels • Couplage avec des outils supplémentaires (outils détection) • Utilisables dans divers domaines (Diagnostic médical, Maintenance industrielle, Alerte sismique, …) 40

Perspectives • Amélioration des algorithmes proposés • SAKM : Règle de scission, Règle de mise à jour exacte • AUDyC : Mise à jour de la famille exponentielle • Approfondir l’étude théorique pour les deux algorithmes • Aide au réglage des paramètres • Compléter l’étude de convergence • Validation sur d’autres applications • Supervision des processus industriels • Suivi de Processus hybrides • Détection de rupture (exemple: dans les signaux audio) 41

What else ? 42

http://babarazi.free.fr Merci pour votre attention Je suis à votre disposition habiboulaye@gmail.com 43

Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

Presentation Transcript

Chapter Outline

La pauvreté au Bénin : Analyse dynamique, Rôle de la croissance et de l’inégalité et ciblage des populations vulnérables

Image Classification and Others

Data Mining: Classification

Introduction à l’ Apprentissage Artificiel

Différentes approches de l’enseignement et de l’apprentissage

Library of Congress Classification

CLASSIFICATION OF ECHINODERMATA

Techniques aléatoires d'allocation de fréquences pour les réseaux satellitaires

Chapter 5 Writing Classes

Automated landform classification using DEMs

Traitement et suivi du diabétique de type 2

La ou les mémoire(s) et les troubles d’apprentissage Une approche neuropsychologique

Chapitre 11 (suivi par Chap. 12)

CS490D: Introduction to Data Mining Prof. Chris Clifton

Spatial and Temporal Data Mining

RHEOLOGIE

Data Mining: Concepts and Techniques (3 rd ed.) — Chapter 8 —

Chapter 6. Classification and Prediction

Mécanismes moléculaires de l’apprentissage et de la mémoire

Les phénomènes d’apprentissage moteur.

What is classification?