data mining 2 vorlesung n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Data Mining 2. Vorlesung PowerPoint Presentation
Download Presentation
Data Mining 2. Vorlesung

Loading in 2 Seconds...

play fullscreen
1 / 109

Data Mining 2. Vorlesung - PowerPoint PPT Presentation


  • 61 Views
  • Uploaded on

Data Mining 2. Vorlesung. Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at. Thematisch verwandte (aufbauende) Lehrveranstaltungen. SS 188.464, Data Mining, 2 VO WS 181.191, Machine Learning, 2 VU WS 188.413, Selbstorganisierende Systeme, 3 VU

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

Data Mining 2. Vorlesung


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
    Presentation Transcript
    1. Data Mining2. Vorlesung Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at

    2. Thematisch verwandte (aufbauende) Lehrveranstaltungen • SS 188.464, Data Mining, 2 VO • WS 181.191, Machine Learning, 2 VU • WS 188.413, Selbstorganisierende Systeme, 3 VU • SS 188.412, Information Retrieval, 3 VU

    3. Weiterführende Themen • Data Mining Tutorials: http://www.autonlab.org/tutorials/ • WS 183.425, Statistische Mustererkennung, 2 VO + 2 UE • SS 107.284, AKSTA Advanced Regression and Classification, 2 VU

    4. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

    5. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

    6. I. Visualisierung von Daten • Daten sind meist hochdimensional • Scatterplot kann nur 2 Variablen darstellen • Scatterplot Matrix kann beliegig viele Dimensionen darstellen • wird aber schnell unübersichtlich

    7. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Scatterplot

    8. I. Beispiel 3D http://noppa5.pc.helsinki.fi/koe/3d3.html

    9. I. Scatterplot Matrix: 3 Dimensionen

    10. I. Scatterplot Matrix: 8 Dimensionen

    11. I. Hauptkomponentenanalyse • Principal Component Analysis (PCA) • Sucht (& findet) die "interessanteste" 2-dimensionale Projektion • "Interessant": Richtung mit der höchsten Varianz

    12. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Varianz s2 s1

    13. I. Beispiel PCA -> Kamera

    14. I. PCA: Theorie • wird aus Kovarianzmatrix berechnet (=> Problem mit Ausreißern) • Eigenvektoren/Eigenwerte werden gebildet • Eigenvektoren mit höchsten Eigenwerten sind Hauptkomponenten • Neue Achsen haben keinen semantischen Sinn mehr

    15. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten

    16. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten

    17. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

    18. II. Problemstellung

    19. II. Problemstellung Training Modell

    20. II. Problemstellung Training Modell Vorhersage

    21. II. Begriffsdefinition • bei ML muss ein kategorisches Attribut vorhergesagt werden (kontinuierlich = Regression) • Synonyme: • Überwachtes Lernen (Supervised Learning) • Klassifikation • Machine Learning (ML) • (Prediction)

    22. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) II. Beispiel

    23. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

    24. III. k-Nearest Neighbors (1) • Einfaches Lernverfahren, bei dem kein Modell gebildet wird • Die Trainingsdaten werden zum Klassifizieren verwendet (lazy learning) • Hyperparameter: k ist die Anzahl der nächsten Nachbaren, die betrachtet werden um die Klasse zu ermitteln

    25. III. k-Nearest Neighbors (2) • wenn es nur 2 Klassen gibt sollte k ungerade sein • wird bei einer hohen Anzahl an Samples ineffizient • ist stark von der Skalierung abhängig

    26. III. Beispiel kNN

    27. III. Beispiel kNN ?

    28. III. Beispiel kNN: k = 1

    29. III. Beispiel kNN: k = 3

    30. III. Beispiel kNN: k = 5

    31. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

    32. IV. Binäre Decision Trees • Bauen auf Informationstheorie auf (Shannon) • Sind ein rekursiver Algorithmus bei dem der Eingaberaum bei jedem Schritt in 2 Teile gespalten wird • Klassifizierung: Baum wird von der Wurzel an abgearbeitet bis ein Blatt erreicht wird

    33. IV. Decision Trees: Beispiel

    34. IV. Informationstheorie, Entropie • Von Claude Shannon • Anwendungen u.a. in Datenkompression • Mißt Informationsgehalt und Redundanz • Informationsgehalt wird in Bits gemessen

    35. IV. Was ist „Entropie“? • In ML ist Entropie ein Maß für die Unreinheit eines Datensets • Hohe Entropie: • schlecht für Klassifizierung • muß reduziert werden • Formel für Entropie H von Datensatz X:

    36. IV. Berechnung von H(X)

    37. IV. H(X): Fallbeispiele p(xred) p(xblue) H(X) I 0.5 0.5 1 II 0.3 0.7 0.88 III 0.7 0.3 0.88 IV 0 1 0

    38. IV. H(X): Relative und absolute Häufigkeiten vs. => H(X1) = H(X2) Nur relative Häufigkeiten sind relevant!

    39. IV. Information Gain Information Gain: Untergruppen, die die Entropie am stärksten verringern Gegeben: Datenset und 3 verschiedene Möglichkeiten zur Unterteilung, wie entscheidet man am besten? H(X) = 1

    40. IV. Informatin Gain (Eigenschaften) • IG ist höchstens so groß wie die Entropie vor der Teilung • IG ist der Wert um den Entropie durch Teilung verringert werden kann • IG ist mindestens 0 (falls die Entropie nicht reduziert werden kann) • 0 <= IG <= H(X)

    41. IV. Decision Trees Algorithmus • Datenset: Kategorische oder quantitative Variable • Für jede Dimension, für jeden möglichen Split wird IG berechnet • Kategorisch: Eine gegen den Rest • Quantitativ: Sortieren, dann zwischen allen möglichen Werten trennen • Rekursion bis nicht mehr geteilt werden kann

    42. IV. Decision Trees: Quantitative Varible 0.07 0.00 0.01 0.03 0.08 0.03 0.00 0.00 0.01 0.13 0.06 original H: 0.99 0.17 0.01 0.11 0.43 0.26 0.06 0.13 0.05 0.29 0.28 0.09 0.16

    43. IV. Decision Trees: Beispiel

    44. IV. Decision Trees: Klassifikation

    45. IV. Decision Trees: Klassifikation

    46. IV. Decision Trees: Klassifikation

    47. IV. Decision Trees: Mehr als 2 Klassen

    48. IV. Decision Trees: Nicht-binäre Bäume

    49. IV. Decision Trees: Overfitting Vollständige Decision Trees sind meistens zu komplex

    50. IV. Decision Trees: Trainingsende • Mögliche Kriterien zur Unterbrechung der Rekursion: • Anzahl der Samples ist gering (unter einem Schwellwert) • Entropie ist gering • IG ist gering • statistische Tests (Chi-Quadrat) etc. • Schwellwerte sind Hyperparameter