1 / 58

Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de

Data Mining – Merkmalsextraktion, Merkmalsgenerierung, Merkmalsselektion als Schlüssel zum Erfolg. Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de morik@ls8.cs.uni-dortmund.de. Überblick. Unterstützung des Data Mining Prozesses

aldona
Download Presentation

Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining – Merkmalsextraktion, Merkmalsgenerierung, Merkmalsselektion als Schlüssel zum Erfolg Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de morik@ls8.cs.uni-dortmund.de

  2. Überblick • Unterstützung des Data Mining Prozesses • MiningMart – direkte Datenbankintegration • Telekommunikationsanwendung • Versicherungsanwendung • Yale – stand-alone mit Datenbank- oder Dateizugriff • automatische Merkmalsextraktion aus Musikdaten • peer2peer Organisation von Musiksammlungen • Credo

  3. Business understanding Data understanding Data preparation Modeling Deployment Evaluation CRISP – Prozess der Wissensentdeckung 64% der Wissensentdecker brauchen mehr als 61% der Zeit einer Anwendung für die Vorverarbeitung (KDnuggets poll Okt.2003). DM Prozess

  4. Werkzeuge für Data Mining • Unterstützung des zentralen Lernschrittes (Modellierung) bereits sehr gut – Vorverarbeitung? • Dokumentation des gesamten Prozesses? • Wiederverwendbarkeit eines Prozesses? • LS8 entwickelt Werkzeuge, die den gesamten Prozess • unterstützen • dokumentieren • wiederverwenden lassen! DM Prozess

  5. Vorverarbeitung • Fehlende Werte • Zusammenstellen der Informationen aus mehreren Datenbanktabellen zu einem Beispiel (in einer Tabelle) • Ausreißererkennung • Sampling • Erzeugen der Merkmale gemäß der Anforderung des Lernalgorithmus’. DM Prozess

  6. Mining Mart Ziele • Operatoren für die Vorverarbeitung • direkt auf der Datenbank • maschinelles Lernen für die Vorverarbeitung • Dokumentation • der Daten • der Fälle • Wiederverwendung von abstrahierten Fällen MiningMart

  7. Mining Mart Ansatz • Metadaten zur Beschreibung von • Daten, • Operatoren und • Fällen (Sequenzen von Operatoren) • Compiler, der Metadaten in ausführbaren SQL-Code übersetzt • Sammlung von Fällen in Form von operationalen Metadaten MiningMart

  8. Lernoperatorendes Metamodells DataMiningStep Subgroup discovery Classification Regression Clustering Associations SVM_light decisionTree MySVM k-means Sidos,Midos Neu NEU Lernoperatoren sind auch Vorverarbeitungoperatoren! Beispiel: C4.5 zur Disketisierung oder Ersetzung fehlender Werte.

  9. Meta Modell für Metadaten Das begriffliche Modell beschreibt die Objekte und Klassen der Anwendung Das Fallmodell beschreibt Operator- ketten Das Ausführungsmodell generiert SQL statements oder Aufrufe externer Verfahren Das relationale Modell bescheibt die Datenbank MiningMart

  10. Daten • Kundeninformation • Service Profil der Kunden • Tarifdetails der Kunden • Extra service Information • Anrufdaten aggregiert je Monat • Rechnungsdaten aggregiert je Monat • Beschwerden • Missbrauch • Kundenkontakt • Marktdaten 13 operationale Systeme • Mehr als 500 Attribute je Kunde • Loading: monatlich • Datenvolumen: 1.5 Tb Customer Data Warehouse TILab Welche Kunden werden den Vertrag kündigen? MiningMart

  11. Fallentwicklung mit Mining Mart • Schritte: • Begriffe, Attribute, Relationen • Operatoren • Kette aufbauen

  12. Begriffe, Attribute, Relationen Anrufdaten Daten über Services Demographische Attribute Einnahmedaten MiningMart

  13. Vorverarbeitungskette MiningMart

  14. 16 Rohattribute 45 Generierte Attribute Ergebnis der Vorverarbeitung Merkmalsgenerierung Merkmalsauswahl MiningMart

  15. Churn prediction Ketten 4 Lernläufe, einen für jedes Kundensegment Medium value customers are selected training set decision tree operator applied to fit predict the likelihood of a customer to become a churner in the month M6 Save output

  16. Lernergebnis

  17. Performanz Training / test set: 70% / 30%

  18. Schlussfolgerung von TILab: • Speed up for some preprocessing tasks increased by 50% at least. • Power users may find Mining Mart as easy to use as the leading commercial dm platforms. • It enables building libraries of predefined data mining applications that can be easily modified. • MiningMart guarantees the highest scalability, since it exploits leading commercial db tools features. • Quality of data mining output increases. • Bottom line: Mining Mart supports efficiently and effectively the preprocessing stage of a data mining process. MiningMart

  19. Versicherungsanwendung • Versicherung (SwissLife): Analyse der Rückkäufe • Daten: • Auszug aus dem Data Warehouse einer Versicherungsgesellschaft in anonymisierter Form • Oracle-Datenbank, 18 Tabellen und 15 Relationen • Informationen zu Versicherungsverträgen und demographische Daten zu den Partnern • 217 586 Versicherungsverträge und 163 745 Partner • Mit gegebenen Merkmalen Lernergebnis nur max. • Precision: 57% • Recall: 80% MiningMart

  20. Auszug aus der Versicherungstabelle MiningMart

  21. Merkmalsgenerierung mit Hilfe von TFIDF • Termfrequenz beschreibt, wie oft ein bestimmtes Attribut in einem Vertrag geändert wurde • Die Dokumentfrequenz entspricht der Anzahl der Verträge, in denen das Attribut geändert wurde • TFIDF Merkmale MiningMart

  22. Erzeugung der TFIDF Merkmale VVSTACD VVPRFIN VVPRZA VVINKZWEI VVBEG VVEND VVINKPRL 3 4 0 3 0 2 3 Hanna Köpcke MiningMart

  23. Lernverfahren und Ergebnisse • Training einer SVM • 10-fache Kreuzvalidierung • Ergebnis • Accuracy: 99,4% • Precision: 94,9% • Recall: 98,2% • Die guten Ergebnisse können mit Thorsten Joachims TCat-Theorie erklärt werden. • Schlüssel zum Erfolg lag in der Erzeugung von TFIDF-Merkmalen. MiningMart

  24. TCat-Konzepte • Das TCat-Konzept beschreibt eine binäre Klassifikationsaufgaben mit s disjunkten Mengen von Merkmalen. Die i-te Menge enthält fi Merkmale. Jedes positive Beispiel enthält pi Merkmale aus der jeweiligen Menge, und jedes negative Beispiele enthält ni Merkmale aus der Menge. Das gleiche Merkmal kann mehrmals in einem Dokument vorkommen.

  25. positive Dokumente negative Dokumente TCat im Bild • 20 aus 100 Stoppwörtern, 5 aus 600 mittelhäufigen und 10 aus seltenen Wörtern kommen in POS- und NEG-Dokumenten vor;4 aus 200 mittelhäufigen Wörtern in POS, 1 in NEG, 9 aus 3000 seltenen Wörtern in POS, 1 in NEG(Es müssen nicht immer die selben Wörter sein!) 4 9 1 10 1 Wörter nachRang geordnet 1 1 10 9 4

  26. Lernbarkeit von TCat-Konzepten • Schranke des erwarteten Generalisierungsfehles einer Support Vector Maschine nach Joachims mit

  27. Systemunterstützung durch Yale • Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation. • Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern: • Daten: • Datenformat in XML beschrieben • Datei • Lernparameter Yale

  28. Yale Ralf Klinkenberg, Ingo Mierswa, Simon Fischer Yale

  29. Lernergebnis einer Analyseaufgabe Yale

  30. Intelligente Systeme für Musik • Automatische Annotation von Musik Lernen von Metadaten • Klassifikation von Musik nach • Genre (nur noch als benchmark) • Benutzerpräferenzen • Gelegenheiten • Automatische Organisation von Sammlungen • Empfehlungen z.B. EU-Projekt SIMAChttp://www.semanticaudio.org/ Yale

  31. Technischer Kern • Audiodaten sind Zeitreihenunivariat: Elongation • Wir müssen Ähnlichkeiten von Zeitreihen erkennen • Indexing • Clustering Yale

  32. Clustering von Zeitreihen – Standard So passen ähnliche Musikstücke nicht! Yale

  33. Dynamic Time Warping So auch nicht! Yale

  34. Technischer Kern • Merkmalsextraktion ist notwendig für • Annotation • Indexierung • Clustering • Klassifikation • Je Aufgabe unterschiedliche Merkmale nötig! • Klangähnlichkeit, Liedtexte, Kulturelle Metadaten (MPEER, Stephan Baumann) • Verschiedene Benutzer verwenden andere Merkmale(Klassifikation von Benutzerpräferenzen, Ingo Mierswa) Yale

  35. Low Level Descriptors • Lautstärke • Spectral Centroid (Cepstral) • Mel Frequency Cepstral Coefficient (MFCC) • Zero Crossing Rate • Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall zwischen Zweithöchstem und Höchstem Yale

  36. High-Level Descriptors • Genre • Stimmung: glücklich, traurig, neutral • Tempo: sehr langsam – sehr schnell, variierend • Komplexität: gering, mittel, hoch • Gefühl: sanft, neutral, aggressiv • Fokus: Gesang, beides, Instrument Lernaufgabe: Klassifikation nach HLD, gegeben LLD Ergebnis: klappt nicht! Pohle et al. 2005 Yale

  37. Merkmalsextraktion lernen lassen! • Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR • Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149. • Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe! • Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert. Yale

  38. Frequenz -- Peaks

  39. Frequenz -- Stärkste Frequenz

  40. Intervalle im Frequenzbereich

  41. Phasenraum Zeitreihe Phasenraum yt+1 yt Deterministischer Prozess Deter- ministicProcess yt yt+1 yt time t AR(1)-process with outlier (AO) AR(1) Prozess mit Ausreißer yt timet HRt yt+1 Herzrate Heart rate yt time t U.Gather, M. Bauer

  42. Audiodaten: Phasenraum Pop

  43. Audiodaten: Phasenraum Klassik

  44. Darstellung der geeigneten Transformationen für eine Aufgabe • Methodenbaum: • Reihe von Transformationen, durch ein Funktional abgeschlossen • Transformationen von Wertereihen in Wertereihen • Transformation in einen anderen Raum • Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist • Aufbau eines Methodenbaums: • Dynamische Fensterung erzeugt neue Teilbäume • Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe Yale

  45. Methodenbaum Wertereihe Wurzel Merkmale T: EMA T: Fensterung F: Avg + Var T: Hanning T: FFT F: MaxIndex Yale

  46. Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung • Training der Merkmalsextraktion auf Teilmenge der Daten. • Anwendung der Merkmalsextraktion auf alle Daten für die Lösung einer Lernaufgabe. • Genetische Programmierung: • Individuen: Methodenbäume • Fitness durch Kreuzvalidierung der jeweiligen Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum. Yale

  47. Jede Aufgabe verlangt andere Merkmale • Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen • Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen. • Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy85,9 – 98,3 precision83,7 – 99,0 recall Yale

  48. Experimente zum Lernen mit Merkmalstransformation • Lernen des Methodenbaums für eine Aufgabe:Ergebnis diese Lernlaufs ist ein Yale-Experiment. • Durchführung des gelernten Yale-Experiments. • Lernen der Analyseaufgabe mit den gelernten Merkmalen. Yale

  49. Wertereihen Yale

  50. Lernen der Merkmalsextraktion Yale

More Related