Classification non supervis e

1. Classification non supervis�e Objectif: grouper les donn�es en groupes afin de faire de d�couvrir une structure � ces donn�es.

2. Classification non supervis�e Id�e: identifier une partition des donn�es telle que les objets d�une m�me classe se ressemblent le plus possible et que des objets de classes diff�rentes soient le plus diff�rents possible.

3. Objectifs On cherche � satisfaire deux objectifs simultan�ment: Grande homog�n��t� de chaque classe Bonne s�paration des classes Dans le but de satisfaire ces objectifs, les algorithmes sont souvent impl�ment�s en utilisant une matrice des dissimilarit�s

4. La matrice de dissimilarit�s Indique les dissimilarit�s entre diff�rents objets. Cette dissimilarit� est calcul�e en utilisant une m�trique ou norme (Ex: euclidienne, de manhattan, etc�) Importance du choix appropri� de l��chelle car une �chelle inappropri�e donnera une matrice de dissimilarit�s non repr�sentative des donn�es.

5. Illustration de l�importance du choix de l��chelle



8. Crit�res Minimiser le diam�tre de chaque classe Maximiser la distance entre les objets les plus proches de deux classes diff�rentes Minimiser la variance au sein de chaque classe Et bien d�autres�

9. Algorithmes de classification Classification ascendente hierarchique Classification divisive Classification avec nombre fix� de classes

10. Les m�thodes hierarchiques de classification Les m�thodes hierachiques de classification sont r�cursives, ce qui signifie que les d�cisions prises � un niveau ne pas modifi�es au cours de l�execution de l�algorithme, que ces m�thodes soient ascendentes ou descendente (divisives).

11. Les algorithmes de classification ascendente hierarchique Les algorithmes de classification ascendentes partent d�une partition o� chaque objet repr�sente une classe. � chaque it�ration, deux classes sont fusionn�es afin de donner une partition avec une classe de moins. Selon la m�thode utilis�e, le choix des classes � fusionner changera.

12. M�thodes de classification ascendente hierarchique M�thode du lien simple M�thode du lien complet M�thode de Ward (minimisation de la somme des carr�e des distances) Sch�ma g�n�ral qui s�appliquera de mani�re tr�s similaire pour chacun des crit�res.

13. M�thode du lien simple � chaque it�ration, la paire d�objets de classes diff�rentes les plus proches est choisie et leurs classes sont fusionn�es.

14. M�thode du lien simple La m�thode du lien simple a la propri�t� de garantir � chaque niveau que l��cart entre les classes est maximum (distance entre les objets les plus proches). C�est une bonne m�thode pour la s�paration.

15. Illustration de la m�thode du lien simple

16. Exemple

17. Partitions

18. M�thode du lien complet � chaque it�ration, nous consid�rons pour chaque paire de classes la distance entre les objets les plus �loign�s. La paire de classes pour laquelle cette distance est minimale est fusionn�e. C�est une bonne m�thode pour l�homog�n��t�, m�me si elle n�assure pas la partition de diam�tre minimum.

19. Illustration de la m�thode du lien complet

20. Le dendrogramme � partir des �tapes d�un algorithmes de classification hierarchique, nous pouvons construire un dendrogramme. Non seulement le dendrogramme indique les objets et classes qui ont �t� fusionn�es � chaque it�ration, mais indiquent aussi la valeur du crit�re choisi pour chaque partition rencontr�e

21. Exemple de dendrogramme(cas du lien simple)

22. D�fauts des algorithmes hierarchiques Difficilement utilisables avec de grosses bases de donn�es (Data Mining) Sous optimaux pour la plupart des crit�res car il est souvent possible, le nombre de classes �tant fix�, de trouver une partition meilleure (pour le crit�re choisi).

23. Algorithmes non hierarchiques Le plus connu de ces algorithmes est nomm� k-means. Le crit�re est de minimiser la somme des carr�s des �carts aux centroides de chaque classe. Cet algorithme suppose que nous connaissions le nombre de classes voulu.

24. K-means Initialisation: partitionner les objets par une m�thode quelconque (partition al�atoire par exemple) Phase 1: pour chaque classe, calculer le centroide. Phase 2: affecter chaque objet au centroide dont il est le plus proche. Si au moins un objet a chang� de classe, revenir � la phase 1 si non: Fin

25. K-means Cette m�thode a l�avantage d��tre rapide � converger vers un optimum local Par contre, l�optimum local rencontr� d�pend fortement de la solution initiale; c�est donc pas forc�ment une bonne solution. En g�n�ral, afin d�am�liorer la solution, on utilise le �multi-start�.

26. K-means K-means tel que d�crit plus t�t fonctionne assez bien si le nombre de classes voulu est mod�r�. D�s que le nombre de classes augmente, la solution trouv�e par l�algorithme est m�diocre, voire carr�ment mauvaise (2 ou 3 fois moins bonne que la solution optimale)

27. K-means Il y a plusieurs raisons � cette contre performance: La m�thode de descente elle-m�me qui pousse � rester proche de la solution courante en la renforcant par des modifications marginales, ce qui donne une grande inportance � la solution initiale. Le multistart est mauvais si le nombre d�optimums locaux est grand

28. K-means am�lior� Changer l�algorithme de descente n�est pas une bonne id�e car il est vraiment tr�s rapide par rapport aux autres qui ne sont simplement pas utilisables pour le Data-mining. Il faut donc un autre moyen de sortir de l�optimum local, par exemple en utilisant des m�taheuristiques.

Classification non supervis e

Classification non supervis e

Presentation Transcript

Cervical Spine Injuries Classification and Non-operative Treatment

Nomi numerabili e non

Supervis o e Gerenciamento de Facilities

Parit e non discriminazione

Parit e non discriminazione

Lecture 3 Non parametric density estimation and classification

E non solo…… ..

E xamples of classification methods

Non-FAO Land Classification Methods

Non - viol e nce

Chapter 4 (Part 1): Non-Parametric Classification

Enti commerciali e non commerciali

E invece non finisce mai

“…Non c’è uomo che non mangi e non beva,

OSSERVARE NON E’ GUARDARE

Applicazioni Web-based e non

Parità e non discriminazione

e non sai dove andare?

Chapter 4 (part 2): Non-Parametric Classification

Classification of E-Commerce Firms

IPA CLASSIFICATION A - E

Rigid and Non-Rigid Classification Using Interactive Perception