regroupement clustering l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Regroupement (Clustering) PowerPoint Presentation
Download Presentation
Regroupement (Clustering)

Loading in 2 Seconds...

play fullscreen
1 / 27

Regroupement (Clustering) - PowerPoint PPT Presentation


  • 96 Views
  • Uploaded on

Regroupement (Clustering). Christelle Scharff IFI 2004. Généralités. Organisation des données en groupes (clusters) de façon à ce que les données similaires soient dans le même groupe 2 optimisations: Similarités entre les données dans un groupes aussi élevées que possible (intra-groupe)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Regroupement (Clustering)' - ronalee


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
regroupement clustering

Regroupement (Clustering)

Christelle Scharff

IFI

2004

g n ralit s
Généralités
  • Organisation des données en groupes (clusters) de façon à ce que les données similaires soient dans le même groupe
  • 2 optimisations:
    • Similarités entre les données dans un groupes aussi élevées que possible (intra-groupe)
    • Similarités entre les données de différents groupes aussi distinctes que possible (inter-groupe)
  • Apprentissage non supervisé
    • Les classes sont inconnues
applications
Applications
  • Segmentation de l’ensemble des clients d’une entreprise en fonction de leur démographie ou de leurs habitudes d’achat
  • Grouper les habitations d’une ville en quartiers
  • Grouper des documents pour des présentations
  • Identifier de nouvelles espèces animales ou végétales
exemple regroupement de personnes
Exemple: Regroupement de personnes

Sexe, lunettes, sourire, chapeau

regroupement
Regroupement
  • Méthode 1: Hiérarchie
    • Hiérarchie des groupes de données représentée par un dendrogramme
    • Un dendrogramme est un arbre binaire de groupes
    • Le nombre de groupes peut être choisi post-hoc
      • On coupe horizontalement le dendrogramme à un niveau précis pour obtenir le nombre de groupes choisi
regroupement8
Regroupement
  • Méthode 2: Partitionnement
    • Construction d’une partition des données en k groupes
      • K est choisi à l’avance
    • Comment?
      • Énumération de toutes les partitions
      • Heuristique:
        • Algorithme des k moyennes [McQueen, 1967]
          • Chaque cluster est représenté par son centre
    • Commencer avec k groupes et raffiner les groupes itérativement
mesure des similarit s diff rences
Mesure des similarités / différences

Utilisation d’un fonction de distance

Distance Euclidienne:

Distance de sommation:

Distance Euclidienne ponderee:

structures de donn es
Structures de données
  • Les données (n lignes)
  • Matrice des distances (similarités) entre les données:

d(i,j): distance entre la donnée i et la donnée j

hi rarchies12
Hiérarchies
  • Méthode descendante (Division)
    • Commencer avec un groupe contenant toutes les données
    • Séparer les groupes en plus petits groupes jusqu’a ce que chaque groupe ne contiennent plus qu’un exemple
  • Méthode ascendante (Agglomération)
    • La méthode la plus communément utilisée
    • Commencer avec des groupes d’un exemple
    • Combiner les groupes jusqu’a ce qu’il n’y ait plus qu’un seul groupe (contenant toutes les données)
comment construire les groupes 1
Comment construire les groupes? (1)
  • Lien simple (Simple linkage)
    • La distance entre 2 groupes G1 et G2 est: Min(Distance(x,y)), où x est un élément de G1 et y est un élément de G2
    • On calcule les distances entre tous les groupes en utilisant une matrice des distances (n groupes  matrice nxn)
    • Les groupes qui sont les plus proches sont combinés
comment construire les groupes 2
Comment construire les groupes? (2)
  • Lien complet (Complete linkage)
    • La distance entre 2 groupes G1 et G2 est: Max(Distance(x,y)), où x est un élément de G1 et y est un élément de G2
    • On calcule les distances entre tous les groupes en utilisant une matrice des distances (n groupes  matrice nxn)
    • Les groupes qui sont les plus éloignés sont combinés
comment construire les groupes 3
Comment construire les groupes? (3)
  • Lien moyen (Average linkage)
    • La distance entre 2 groupes est définie comme la distance moyenne entre toutes les paires d’éléments des 2 groupes
    • Elle est calculée de la manière suivante:
      • La distance entre un groupe G1 et un groupe G2 est 1/(mn)  distance(x,y) pour x dans G1 et y dans G2, |G1| = n et |G2| = m
    • Les groupes qui sont les plus proches sont combinés
exemple dendrogramme
Exemple: Dendrogramme

Dendrogramme: Représentation graphique des groupes et des combinaisons des groupes

discussion
Discussion
  • Méthode très intuitive
  • Facile à implémenter
  • Méthode coûteuse
    • n2 calculs à chaque étape
      • n: nombre de groupes
groupe
Groupe
  • Un groupe est représenté par son centre
  • Le centre d’un groupe est obtenu par le calcul des moyennes des éléments du groupe
algorithme
Algorithme
  • K est donné. L’algorithme est composé de 4 étapes:
    • Partitionnement des données en k sous-ensembles (non vides)
    • Calcul des centres des groupes de la partition courante
    • Les données sont affectées au groupe dont le centre leur est le plus proche
    • Retour à l’étape 2
    • Arrêt lorsqu’il n’y a plus de données a affecter a un nouveau groupe
discussion26
Discussion
  • n calculs à chaque étape
  • On spécifie le nombre de groupe à l’avance
    • Sensibilité au choix du nombre de groupes
  • Problèmes avec les groupes non convexes
  • On a besoin de pouvoir calculer les moyennes sur les attributs
r f rences
Références
  • Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.
  • Multivariate Statistics: Concepts, Models, and Applications. W. Stockburger.
  • J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann.
  • Data Mining: A Tutorial-Based Primer. Richard J. Roiger & Michael W. Geatz. Addison Wesley.
  • N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases.