construction de super classes partir de la carte de kohonen etude de la robustesse de la carte
Download
Skip this Video
Download Presentation
Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte.

Loading in 2 Seconds...

play fullscreen
1 / 65

Construction de super-classes partir de la carte de Kohonen Etude de la robustesse de la carte. - PowerPoint PPT Presentation


  • 209 Views
  • Uploaded on

Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte. Marie Chavent, Antonio Ciampi , Olivier Elemento, Aicha El Golli, Yves Lechevallier Karim Terbeche [email protected]

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Construction de super-classes partir de la carte de Kohonen Etude de la robustesse de la carte.' - ollie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
construction de super classes partir de la carte de kohonen etude de la robustesse de la carte

Construction de super-classes à partir de la carte de KohonenEtude de la robustesse de la carte.

Marie Chavent, Antonio Ciampi, Olivier Elemento, Aicha El Golli, Yves Lechevallier

Karim Terbeche

[email protected]

introduction
Notre approche intègre Kohonen Self Organizing Map avec d’autres méthodes de classification.

Dans la première étape, SOM réduit de manière importante les données et rend, ainsi, les méthodes de classification hiérarchiques accessibles.

Dans la seconde étape, nous proposons une modélisation des classes obtenues afin de pouvoir utiliser une méthode de classification optimisant les paramètres de cette modélisation.

Cette approche est illustrée par un exemple de données de nutrition d’EPIC.

Introduction
notre approche
Notre approche

Au départ on réalise une réduction des données par les cartes topologiques de Kohonen.

Après les mesures individuelles sont remplacées par des mesures agrégées qui sont calculées sur les neurones représentant les micro-classes.

Ces micro-classes sont maintenant traitées comme des nouvelles « boites » qui sont représentées par une distribution gaussienne multi-dimensionnelle ou par un intervalle de « variabilité ».

Après les micro-classes sont regroupés pour produire un nombre réduit de super-classes.

m thodolog ie
Cette approche comporte 4 étapes :

étape 1 : Réduction des données par les cartes de Kohonen

Le tableau de données original est réduit en un certain nombre de micro-régimes où chaque individus est assigné à un seul de ces micro-régimes.

étape 2 : Relation entre centreset micro-régimes

Calcul de la moyenne et de la matrice de variance et covariance de chaque micro-régime.

étape 3 :Classification sur les micro-régimes

La méthode de classification divisive est utilisée pour obtenir une première définition des régimes.

étape 4 : Description des régimes

Chaque régime va être décrit par un « Zoom Star » en utilisant les 8 variables les plus discriminantes

Méthodologie
les donn es
Les données
  • Une étude multi-centres longitudinale de cohorte dont le but est une meilleure compréhension de l’effet de la nutrition, par l’analyse des variables métaboliques et d’autres facteurs relié au style de vie, sur le risque de cancer. Les données portant sur le régime alimentaire sont maintenant disponible sur plus de 500.000 sujets.
  • Nous remercions le Dr. F. Clavel pour nous avoir permis d’analyser les données de son étude, et le Dr. E. Riboli pour nous avoir guidé à comprendre la complexité et les enjeux du projet EPIC .
  • Base de données des températures mensuelles de 60 stations météorologiques chinoises depuis un siècle. L’objectif est de classer les profils annuels de ces stations.
tape 1 r duction des donn es par les cartes de kohonen
Les cartes de Kohonen sont utilisés pour visualiser des structures complexes issues de grands tableaux de données par projection sur une grille (comme à la TV) sachant que les propriétés de la structure de données sous-jacente doivent être vues sur l’écran.étape 1 : Réduction des données par les cartes de Kohonen
slide7

Étapes de l’algorithme

Initialisation

Initialisation par l’analyse en composantes principales

Étape d’allocation

Sélection aléatoire de l’individu s et détermination du neurone « gagnant » c, sachant que :

c = arg mini d(s,mi)

)ooù : d est la distance entre set le prototypemi

Étape de représentation

Mise à jour des pondérations de tous les neurones i appartenant au voisinage de c par :

où: mi(t)est la description dui, atest utilisé pour assurer la convergence, h(c,i,t) est la fonction de voisinage entre ceti.

Règle d’arrêt

Revenir à l’étape d’allocation si cette règle n’est pas vérifiée.

algorithme de gradient stochastique
Algorithme de gradient stochastique

On choisit un f0 dans l\'espace F, ensemble des solutions.

à l\'étape t on effectue un tirage aléatoire suivant la loi P. On obtient une réalisation zt

on procède à la mise à jour par la formule suivante :

la suite de termes at positifs doit vérifier :

fonction de voisinage
Fonction de voisinage

Courbe de cette fonction de voisinage

a=

d2(i,c)

initialisation
Initialisation

Notre choix est d’utiliser les résultats d’une analyse en composante principale appliquée à la matrice des données à la fois dans le choix de l’architecture de la carte et dans l’initialisation.

Il est en effet utile de choisir les dimensions de la grille, a et b (avec R = ab) de telle sorte que :

où 1 et 2 sont les deux premières valeurs propres de l’analyse en composante principale.

Les poids des connections initiaux et les positions des prototypes sont déterminés à partir des deux premiers vecteurs propres

tableau de donn es
Nous avons pris un sous-ensemble de la population de l’EPIC constitué de 4852 femmes françaises distribuées dans 7 centres.

Les variables sont 16 variables continues:

Potatoes and other tubers Fish and Shellfish

Vegetables Eggs and eggs products

Legumes Fat

Fruits Sugar and confectionery

Dairy products Cakes

Cereals and cereals products Alcoholic beverages

Meat and meat products Condiments and Sauces

Soups and bouillon Miscellaneous

Tableau de données
initiali s ation par l acp
Initialisation par l’ACP

A chaque sommet de la grille on associe un neurone et son vecteur de pondération qui est sa position dans cet espace de dimension

kohonen map
Kohonen Map

Chaque boite représente un neurone et l’ensemble des individus associés par l’étape d’allocation.

A chaque boite vous avez l’effectif et son profil calcul sur les 16 variables

r sum s de la matrice originale
Pour chaque « boite » nous résumons les vecteurs de mesure des individus de cette boite par de nouvelles mesures agrégées associées à cette boite

Deux modèles de représentation:

Par une distribution gaussienne

Par un intervalle de variation

Résumés de la matrice originale
dissimilarit entre micro classes
Dissimilarité entre micro-classes

Un avantage ultérieur de la réduction de Kohonen est que les vecteurs des moyennes sur les micro-classes sont asymptotiquement distribués selon la distribution normale.

C’est une propriété importante, car elle permet de définir une mesure de dissimilarité entre micro-classes particulièrement bien appropriée.

L’objectif est la découverte de classes ou régimes alimentaires constitués de micro-classes ou micro-régimes.

distance entre micro classes
Distance entre micro-classes

La distance est la statistique du rapport de vraisemblance entre l’hypothèse que m et msont distribués selon deux lois différenteset l’hypothèse qu’ils sont distribués selon la même distribution. On a alors :

algorithme de la classification ascendante hi rarchique cah
Algorithme de la classification ascendante hiérarchique CAH

(a) initialisation

On se donne au départ la partition constituée de N classes

On se donne un indice d’agrégation

qui vérifie

(b) Étape agrégative

Construire une nouvelle partitioncontenant K classes à partir de la partition contenant K+1 classes en réunissant les deux classes deles plus proches au sens de la mesure d’agrégation D.

(c)Recommencer l’étape (b) jusqu’à obtenir une seule classe, c’est-à-dire la partition grossière.

la formule de r currence de lance et williams
La formule de récurrence de Lance et Williams

Il est nécessaire de recalculer l’indice d’agrégation entre la nouvelle classe ainsi formée et les autres classes de la partition. Lance et Williams en 1967 ont proposé, lors du regroupement des deux classes , la formule de récurrence suivante :

lien minimum

lien maximum

l’augmentation de l’inertie ou indice de WARD

tape 3 classification sur les micro classes
étape 3 :Classification sur les micro-classes

Cette méthode (Chavent 1997, 1998), présentée ici dans le cas particulier des variables de type intervalle, divise à chaque étape une classe en fonction d\'une question binaire et du critère d\'inertie

A chaque étape, la méthode définit la question binaire qui induit la bipartition d’inertie intra-classe minimum.

div m thode de classification divisive
DIV : méthode de classification divisive
  • Les K partitions de notre ensemble d’individus
  • Hiérarchie indicée
  • Chaque nœud représente une classe
  • Chaque classe peut être décrite par une règle
questions binaires
Questions binaires

variable continue

Variable qualitative

[X > 3.5] ?

  • Dans le cas d’une variable continue on évalue toutes coupures possibles c’est-à-dire au maximum n-1
  • Pour une variable qualitative ordonnéeY, on évalue ainsi au maximum m-1 bipartitions
  • Dans le cas d\'une variable qualitative non ordonnée, on se heurte vite à un problème de complexité, le nombre de dichotomies du domaine d\'observation étant alors égal à 2m-1-1.
algorithme r cursif
Initialisation

l’ensemble E forme la partition grossière

Étape k

Diviser l’une des k classes de la partition en deux classes

En sélectionnant une des questions binaires qui optimisent un critère d’évaluation défini sur la partition,

En utilisant cette question binaire pour générer deux sous-classes,

Remplace la classe précédente par deux nouvelles feuilles associées à ces sous-classes (arbre binaire)

Revenir à l’étape k tant que k est plus petit que le nombre de classes donné a priori.

Algorithme récursif
crit re d valuation
Critère d’évaluation

Soit P=(P1,…,PK) une partition en K classes

Critère d’évaluation W(P) doit être additif

Exemple : Inertie intra-classe

La réduction du critère d’évaluation revient à maximiser le gain D(Q) associé à la question binaire Q de découper la classe C et deux classes C1 et C2

B étant l’ensemble des questions binaires admissibles

algorithme divisif
Étape 1: Tous les objets dans la même classe C

Étape 2: Diviser successivement chaque classe C en deux classes (C1,C2) en fonction du critère de l’inertie intra-classes

étape 2.1: pour chaque variable X , trouver la coupure s qui maximise

D(X,s/C)=|w(C) - w(C1)-w(C2)|

étape 2.2: choisir la variable X* et la coupure s

D(X*,s*/C)=max D(X,s/C)

étape 3: diviser la classe C en (C1,C2)

Algorithme divisif
arbre de d cision hi rarchie indic e

C1

C3

C4

C2

C9

C7

C6

C8

C5

Arbre de décision/ Hiérarchie indicée

Pas d’ordre de découpage

Ordre de construction

D

C8

C9

C5

C6

C7

les r sultats
Les K partitions de notre ensemble d’individus

Hiérarchie indicée

Chaque nœud représente une classe

Chaque classe peut être décrite par une règle

Les résultats
arbre de classification
Arbre de classification

La règle associée au régime 3 est :

Proportion of Soups and Bouillon < 17.28

AND Proportion of fish and Shellfish < 6.87

tape 4 3 r gimes par zoom stars
étape 4 : 3 régimes par Zoom Stars

Règle du régime 3 est :

Soups and Bouillon < 17.28

AND Fish and Shellfish < 6.87

classification de stations de m t orologies chinoises
Classification de stations de météorologies chinoises

Base de données des températures mensuelles de 60 stations météorologiques chinoises depuis un siècle.

L’objectif est de classer les profils annuels de ces stations.

Chaque station est décrite par 12 variables continues

On propose de comparer deux formes d’initialisation de l’algorithme de Kohonen.

probl me de reconnaissance des formes

Problème de reconnaissance des formes

Cet exemple est issus d’un problème de reconnaissance des formes du livre de L.Breiman, J.H. Friedman, R.A. Oslhen and C. J. Stone "Classification and Regression Trees"; Belmont Eds, 1984.

Ces données sont des données simulées

slide47

Les trois formes de base

Voici les trois formes de base h1, h2eth3.

h2(i)

h1(i)

h3(i)

ensemble d apprentissage
Ensemble d’apprentissage

3 classes de formes: wave_1, wave_2, wave_3

Pour chaque forme : les 21 donnéesxi i=1 à 21 sont calculées à partir du modèle et d’un bruit

Formes de la classewave_1 : xi=u. h1(i)+ (1-u).h3(i)+ei for i=1,...,21.

Formes de la classewave_2 : xi=u. h1(i)+ (1-u).h2(i)+ei for i=1,...,21.

Formes de la classewave_3 : xi=u. h3(i)+ (1-u).h2(i)+ei for i=1,...,21.

  • usuit une loi uniforme dans [0,1]
  • e1,...,e21sont des variables aléatoires indépendantes qui suivent une loi gaussienne de moyenne nulle et de variance unitaire.
slide49

Un modèle de forme avec h1 et h3

Le vecteur est obtenu par un échantillonnage sur 21 points

6

5

u=0.1

WAVE

4

3

2

x8

1

x3

0

0

5

10

15

20

25

Variables

v1

v2

v3

v4

v5

v6

v7

v8

v9

v10

....

les anomales possibles
Éloignement de deux classes proches

Rapprochement de deux classes éloignées

L’effet « papillon »

La représentation des données sur la carte est un codage d’un point de Rp par un couple de deux entiers. Les défauts correspondent à la non conservation de la notion de voisinage.

Les anomales possibles
notion de voisinage
Cette notion de voisinage se traduit par une relation d’intermédiarité existant entre un triplet d’éléments.

Dans Rp on considère que x1 se situe « entre » x2 et x3 si :

Notion de voisinage

On dira qu’il y a violation pour le triplet (x1 , x2 , x3) si l’élément qui se site « entre » les deux autres est différent suivant que l’on se trouve dans Rp ou sur la carte.

mesure de la qualit de la carte
Approche géométrique

Zrehen S et Blayo F (1992)A geometric organization measure for Self-Organization Kohonen Maps , Proceeding of Neuro-Nîmes Conference pp 603-610

Approche discrète

Villnamm T Der R, Herrmann M et Martinez T (1997) Topology perservation in self-Organizing feature maps, IEEE Transaction on Neural Networks, pp 256-266

Approche par ensembles ordonnés

Goodhill G J, Finch S et Sejnowski T J (1995) Quantifying neighborhood perservation in topographic mapping, Technical Repport INC-9505. Institute for Neural Computation, La Jolla, Californie

Mesure de la qualité de la carte
approche g om trique
Approche géométrique

Pour deux neurones Ni et Nj proches dans la carte (distance égale à 1 par exemple). On construit dans Rp l’hypersphère HS(wi,wj) dont l’un des diamètres est le segment de droite rejoignant les deux représentations wi et wj de ces deux neurones dans Rp.

Puis on recherche tous les neurones dont la représentation est incluse dans cette hypersphère et dont la distance sur la carte est supérieure à la distance de ces deux neurones.

Tous les neurones de cet ensemble violent la relation d’intermédiarité. L’évaluation de la qualité est liée à ce nombre d’intrus.

Cette recherche est difficile si la dimension p est assez grande.

approche g om trique63
Approche géométrique

Indice est égal au nombre de vecteurs poids intrus qui apparaissent dans le disque ayant pour diamètre une paire de vecteurs poids voisins donnés.

Cet indice est pondéré par le nombre de neurones de la carte multiplié par le nombre de voisins sur la carte.

approche discr te
Approche discrète

Graphe de Delaunay

Régions de Voronoï

Villmann propose de discrétiser l’espace des données pour faciliter la comparaison avec la carte en utilisant ce que l’on appelle les régions de Voronoï

Le graphe de Delaunay : on trace une arête entre deux sommets du graphe si dans la partition en régions de Voronoï, les régions associées aux deux sommets sont adjacentes.

une approche par ensembles ordonn s
Une approche par ensembles ordonnés

Si la valeur des dissimilarités entre individus est conservée alors la topologie de l’ensemble des données existant dans l’espace de départ est conservée dans l’ensemble d’arrivée.

Evalution du désaccord entre les deux ordres

ad