340 likes | 422 Views
Lehrstuhl für Angewandte Informatik in den Kultur-, Geschichts- und Geowissenschaften. Otto-Friedrich-Universität Bamberg. Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008.
E N D
Lehrstuhl für Angewandte Informatik in denKultur-, Geschichts- und Geowissenschaften Otto-Friedrich-Universität Bamberg Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008
Angela Schwering (2008). Approaches to Semantic Similarity Measurement for Geo-Spatial Data: A Survey, Transactions in GIS Vol. 12 Issue 1 Page 5 February 2008 Reading Club - Similarity
Teil 1Similarity: Geometrisches Modell Teil 2Verfahren zur Clusteranalysen Teil 3Kritische Schlussbemerkungen Reading Club - Similarity
Allgemeine Eigenschaften • Koordinatensystem • Objekte (Instanzen) als Punkte in einem n-dimensionalen Raum (Koordinatensystem) • Ähnlichkeit definiert als nicht-negative Zahl einer metrischen Distanzfunktion (a,b) • Axiome • Minimality (a,b) ≥ (a,a) = 0 • Symmetry (a,b) = (b,a) • Triangle inequality (a,b) + (b,c) ≥ (a,c) Reading Club - Similarity
Distanzmaße • Metrische Merkmale • Minkowski-Metrik: • Euklidischer Abstand (r = 2) • City Block-Distanz/ Manhattan-Distanz (r=1) • (intervall- und verhältnisskalierte Merkmale) • Nicht-metrische Merkmale • Variablen werden in binäre Form transformiert • Z.B. ordinalskalierte Variablen: Werte unterhalb des Medians die 0 und oberhalb 1 • (nominale und ordinale Merkmale) Reading Club - Similarity
Nicht-Metrische Merkmale • Distanzmaß • Konstanten • Tanimoto: = 0, = 1 • Dice: = 0, = 1/2 • Simple Matching (M): = 1, = 1 • Russel-Rao (RR) • Usw. Reading Club - Similarity
Teil 1Similarity: Geometrisches Modell Teil 2Verfahren zur Clusteranalysen Teil 3Kritische Schlussbemerkungen Reading Club - Similarity
Partitionierende Clusteranalysen • Allgemein • Feste Zielgröße von k Cluster • Optimierungskriterium, so dass möglichst gute Partition der n Objekte in die k Cluster erfolgt • Zufällige Anfangsverteilung der n Objekte zu den k Clustern • Iterative Verfahren • Clusterzugehörigkeit revidierbar • Optimierungskriterium • Global • Partiell Reading Club - Similarity
Iterativ-globale Verfahren • Allgemein • 1.) Anfangspartition mit k Cluster (Initiierungsphase) • 2.) Prüfe, ob sich durch verschieben jedes einzelnen Objektes die Zielfunktion verbessert. Berechne Centroide neu. (Iterationsphase) • 3.) Wiederhole Schritt zwei so lange bis sich keine Verbesserung der Zielfunktion mehr ergibt (Iterationsphase) • Initiierungsphase • Zuordnung nach Eingabereihenfolge • Erste k oder zufällige Stichprobe an Objekten als Startzentren; Zuordnung anschließend nach euklidischer Distanz • Ergebnis einer Clusteranalyse als Startpunkt für eine Zweite • Usw. Reading Club - Similarity
Globale Optimierungskriterien • Totale Streuungsmatrix • T (totale Dispersionsmatrix) • Varianz der m Variablen, bzw. die Kovarianz zwischen je zwei Variablen der n Objekte • T ist vom Typ m x m • Innerhalb eines Clusters: • Zwischen Cluster: • T = W + B Reading Club - Similarity
Skalarbildende Transformation • Spur W • z(P) = Spur(W) Minimum • Summer der Diagonalelemente der Matrix W für eine Partition P • Spur T = Spur W + Spur B • Varianzkriterium, Spur W-Kriterium, Abstabds-quadratkriterium • Determinante W • z(P) = Det(W) Minimum • Maß der Heterogenität der einzelnen Cluster • Skaleninvariant • Berücksichtigt Variablenkorrelation Reading Club - Similarity
Iterativ-partielle Verfahren • Allgemein • 1.) Anfangspartition • 2.) Berechne Clusterzentren • 3.) Verschiebe jedes Objekt in ein Cluster mit minimaler Entfernung (Distanz) • 4.) Fahre bei Schritt zwei fort oder Beende nach einem Abbruchkriterium • Clusterzentren berechnen • Abhängig vom verwendeten Distanzmaß • Quadrierte euklidische Distanz = Clustercentroid • City-Block-Metrik = Vektor der Mediane der Meßwerteverteilung auf den m Merkmalen Reading Club - Similarity
Neuberechnung der Schwerpunkte • Varianten • Alle Objekte dem nächsten Cluster zugewiesen (voller Iterationszyklus) • Bei jeder Zuweisung eines Objekts zum nächsten Cluster • K-means Algorithmus • Berechnung der Centroide nach jeder Neuzuweisung • Ausreißer und Objekte zwischen zwei benachbarten Clustern problematisch • Variante (MacQueen, 1967) mit Parameter C („coarsening“) und R („refinment“) Reading Club - Similarity
Ashbrook/Starner - k-means Ashbrook, D. and Starner, T. 2003. Using GPS to learn significant locations and predict movement across multiple users. Personal Ubiquitous Comput. 7, 5 (Oct. 2003), 275-286. Reading Club - Similarity
K-mediods Algorithmus • Allgemein • Clusterzentren sind jetzt nicht mehr „künstliche“ Centroide sondern echte Objekte in der untersuchenden Datenmenge • Medoid: Objekt mit dem geringsten Abstand zu allen anderen Objekten in einem Cluster • Z.B. Partitioning Around Medoids (PAM) • 1.) Anfangspartition • 2.) Berechne Medoide • 3.) Verschiebe jedes Objekt in ein Cluster mit minimaler Entfernung (Distanz) • 4.) Fahre bei Schritt zwei fort oder Beende anhand eines Abbruchkriteriums Reading Club - Similarity
Beispiel Tung, A. K., Hou, J., and Han, J. 2001. Spatial Clustering in the Presence of Obstacles. In Proceedings of the 17th international Conference on Data Engineering (April 02 - 06, 2001). IEEE Computer Society, Washington, DC, 359-367. Reading Club - Similarity
Hierarchische Clusteranalysen • Allgemein • Optimierung der Clusterbildung, d.h. eine optimale Aufteilung der Objekte auf Cluster wird angestrebt • Nicht-Revidierbarkeit eines Objektes zu einem Cluster • Hierarchische Struktur darstellbar in einem Dendrogramm Reading Club - Similarity
Hierarchisch-agglomerative Verfahren • Allgemein • 0.) Distanzmatrix • 1.) Feinste Partition; Jedes Objekt ein Cluster • 2.) Suche die Cluster mit der kleinsten Distanz • 3.) Fusioniere die zwei gefundenen Cluster • 4.) Berechne die Distanzmatrix neu • 5.) Beende n-1 Fusion (alle Objekte in einem Cluster) oder gehe zu Schritt zwei • Inter-Cluster-Distanz • Allgemein Formel: • Distanz des durch die Fusion der Cluster p und q entstandenen Clusters t zu einem beliebigen Cluster r Reading Club - Similarity
Fusionsstrategien (1) • Single-Linkage • Complete-Linkage Reading Club - Similarity
Beispiel: Single-Linkage = Reading Club - Similarity
Fusionsstrategien (2) • Centroid-Verfahren • Group-Average Inversionsproblem Reading Club - Similarity
Fusionsstrategien (3) • Median-Verfahren • Flexible Strategie Reading Club - Similarity
Fusionsstrategien (4) • Wards-Verfahren Reading Club - Similarity
Fusionsstrategien (5) • Entropieanalyse Reading Club - Similarity
Hierarchisch-divise Verfahren • Anmerkungen • Idee: Cluster auf geschickte Art und Weise zu zerteilen • Nur für kleine Datenmengen praktikabel • Divisiv-polythetische Verfahren • Alle Variablen werden simultan betrachtet • Divisiv-monothetische Verfahren • Nur eine Variable wird betrachtet • Meistens binäre Variablen Reading Club - Similarity
Divisiv-polythetische Verfahren • Dissimilarity Analysis • 1.) Für jedes Objekt wird die Distanz zu dem aus den übrigen n-1 Objekten bestehenden Cluster (Cr) berechnet ( ) • 2.) Das Objekt mit dem größten Distanzwert bildet den Anfang neues Cluster (Cs) • 3.) Für jedes der n-1 Objekte in Cr wird die Distanz zu den n-2 in Cr verbliebenen Objekten und Cs bestimmt • 4.) Objekt mit Maximalem kommt von Cr nach Cs • 5.) Wiederhole bis kein Objekt mehr in Cr vorhanden ist • 6.) Beginne bei Schritt drei oder Abbruchkriterium Reading Club - Similarity
Divisiv-monothetische Verfahren • Assoziationsanalyse • Für binäre Variablen • Nimm jenes Merkmal, dass den größten Anteil an der Gesamtvarianz aller Merkmale besitzt • 1.) Bestimme für jedes Paar von Variablen und eine 2 x 2 Kontingenzmatrix und berechne: • 2.) Division nach dem Merkmal für das gilt: Reading Club - Similarity
Sonstiges (1) • Graphentheoretische Verfahren • Menge A von Objekten wird als vollständiger Graph betrachtet, dessen Kanten (oi, oj) mit Distanzen dij bewertet sind • Entferne aus dem Minimalgerüst dieses Graphen für d > 0 die Kanten mit einer Bewertung dij > d • Vergleichbar mit Single-Linkage Reading Club - Similarity
Sonstiges (2) • Statistische Modellansätze • … Reading Club - Similarity
Teil 1Similarity: Geometrisches Modell Teil 2Verfahren zur Clusteranalysen Teil 3Kritische Schlussbemerkungen Reading Club - Similarity
Allgemeines Geometrisches Modell • Axiome • Minimality (a,b) ≥ (a,a) = 0 • Symmetry (a,b) = (b,a) • Triangle inequality (a,b) + (b,c) ≥ (a,c) • Gegenbeispiele • Gilmore, Hersh, Camarazza and Griffin (1979) Buchstabe M wurde öfter als H erkannt als als M • „North Korea is like Red China“ - „Red China is like North Korea “ • Tversky (1977): Jamaica is similar to Cuba (geographisch); Cuba is similar to Russia (politisch), but Jamaica and Russia are not similar at all Reading Club - Similarity
Vielen Dank für die Aufmerksamkeit! Fragen? Reading Club - Similarity