1 / 20

Machine Learning

Machine Learning. KNN und andere (Kap. 8). K-Nearest Neighbour. Typischerweise für Klassifikationsaufgaben verwendet Ursprünglich zur Mustererkennung Schon Mitte der 50er Jahre angewendet Keine spezielle Trainingsprozedur erforderlich (aber Trainingsdaten) Relativ hoher Aufwand zur Laufzeit

wright
Download Presentation

Machine Learning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Machine Learning KNN und andere (Kap. 8)

  2. K-Nearest Neighbour • Typischerweise für Klassifikationsaufgaben verwendet • Ursprünglich zur Mustererkennung • Schon Mitte der 50er Jahre angewendet • Keine spezielle Trainingsprozedur erforderlich (aber Trainingsdaten) • Relativ hoher Aufwand zur Laufzeit • „Instance based Learning“ • „Lazy Learning“

  3. K-nearest Neighbour • Idee: • Finde in den Trainingsdaten den/die zur aktuellen Instanz ähnlichste(n) Instanz(en) • Die aktuelle Instanz bekommt denselben Wert wie diese(r) Nachbar(n) • Schwierigkeit: • Wieviele Nachbarn? • Welches Ähnlichkeitsmaß? • Was, wenn die Werte der Nachbarn nicht übereinstimmen?

  4. K= 1 K = 3 K-Nearest Neighbour 3 nächste Nachbarn von x Nächster Nachbar von x x x

  5. KNN Algorithmus • Jede Instanz hat die Form <xi,f(xi)> • Berechne Abstand zwischen Testinstanz und jeder Trainingsinstanz • Wähle die k-nächsten Nachbarn n1, n2, ..., nk aus • Der Wert für x ergibt sich durch: • f(x) = A(f(n1), f(n2), ..., f(nk)) • A ist eine Auswahlfunktion

  6. Ähnlichkeitsmaße für binäre Features X seien die positiven Features von Instanz A und Y die positiven Features von Instanz B, die Ähnlichkeit von A und B ist dann: • Matching Koeffizient: |X  Y| • Dice Koeffizient : 2|X  Y|/(|X|+|Y|) • Jaccard Koeffizient : |X  Y|/|X  Y| • Overlap Koeffizient : |X  Y|/min(|X|,|Y|) • Kosinus: |X  Y|/(|X|x|Y|)1/2

  7. Vektorraum-Maße • Euklidischer Abstand • Kosinus-Maß:

  8. Auswahlfunktion • Mehrheitsentscheidung • Durchschnitt: • Gewichtete Summe: oder mit

  9. Knn für (Text)klassifikation • Notwendig: Threshold für die Ähnlichkeit: • Wenn die Testinstanz nicht „nahe genug“ bei einer Trainingsinstanz liegt, soll keine Klassifikation stattfinden, bzw. Mehrfachklassifikation soll zugelassen werden • Möglichkeiten: • Rcut: weise die Top n Kategorien zu • Pcut: strebe bei den Testinstanzen gleiche Verteilung an wie bei den Trainingsinstanzen (geht nur im Batch-Modus) • Scut: wähle (u.U. für jede Kategorie individuellen) festen Threshold

  10. KNN • Eigenschaften: • Zielfunktion wird nicht explizit bestimmt, lediglich für einen Punkt lokal approximiert • Dadurch können komplexe Zielfunktionen durch rel. einfache lokale Approximationen ersetzt werden • Geeignete Datenstruktur zur effizienten Berechnung der Abstände erforderlich • Geeignet für: • Werte sind diskret oder reellwertige Vektoren • Rel. geringe Anzahl von Features • Große Menge an Trainingsdaten verfügbar • Vorteile • Kein Trainingsaufwand • Komplexität der Zielfunktion spielt keine Rolle • Kein Informationsverlust • Nachteile • Negative Effekte durch irrelevante Features • Hoher Verarbeitungsaufwand

  11. KNN: Modifikationen • Reduktion der Feature Menge: • Versuche irrelevante Features zu entfernen • Cross-Validierung: „leave-one-out“-Methode: • betrachte jeweils eine Instanz der Trainingsdaten als Testinstanz (reihum) und teste so das Streichen von Features • Umgewichtung der Features: gewichte vermutlich relevante Features stärker als andere

  12. Lokal gewichtete lineare Regression • Bei KNN: gewichtete Summe als Funktion zur Bestimmung von f(x) -> punktweise • Verallgemeinerung: versuche die Zielfunktion tatsächlich lokal zu approximieren (= Regression) • Nehme an die Zielfunktion ist linear, d.h.

  13. Lokal gewichtete Regression • Approximiere diese Funktion lokal mittels der k nächsten Nachbarn • Approxiationsverfahren: Minimierung des quadratischen Fehlers mittels des absteigenden Gradienten Verfahrens (cf. Neuronale Netze)

  14. Lazy = keine Vorprozessierung der Trainingsdaten Traingsdaten können leicht geändert werden Keine Veränderung der Trainingsdaten durch‘s Lernen Keine Generalisierung Hoher Aufwand zur Laufzeit Gefahr des Overfitting geringer Lokale Approximationen, erlauben komplexere Zielfunktionen Eager = Vorverarbeitung der Trainingsdaten Änderung der Trainingsdaten hat großen Aufwand zur Folge Trainingsdaten werden durch‘s Lernen verändert Generalisierung der Trainingsdaten Hoher Trainingsaufwand, gutes Laufzeitverhalten Overfitting Es muss uniforme Zielfunktion für alle Daten gefunden werden Lazy Learner – Eager Learner

  15. Rocchio Klassifikator • Typisch für Textklassifikation • Basiert auf Vektorraum-Modell • Idee: erzeuge aus den Trainingsdaten einen prototypischen Vektor für jede Kategorie und vergleiche den Vektor der neuen Instanz mit diesen Kategorien-Vektoren • Verfahren stammt eigentlich aus dem Information Retrieval und wurde ursprünglich zum Relevance Feedback entwickelt

  16. Rocchio • Berechnung des prototypischen Vektors: • Seien Tc+ die positiven und Tc- die negativen Trainingsbeispiele (Vektoren) für eine Kategorie c • sind die Centroiden von T+ bzw. T-

  17. Rocchio • Klassifikation: • Für eine Testinstanz x berechne für jede Kategorie ci: d(x, ci) • Thresholding nach pcut, scut oder rcut • Probleme: • Wahl von α und β • Wahl des Abstandsmaß

  18. Relevance Feedback • Ziel: basierend auf dem Feedback des Benutzers soll die Query Q so modifizert werden, dass die Ergebnisse relevanter werden. • Seien D+ die Dokumente, die als relevant beurteilt wurden und D- die als irrelevant beurteilten, dann:

  19. Rocchio: Bewertung • Konzeptuell sehr einfaches Modell • Erlaubt Aussagen über die Beziehung der Klassen untereinander • Trainingsaufwand relativ gering • Verarbeitungsgeschwindigkeit linear in Anzahl der Features und Anzahl der Klassen • In der Praxis jedoch schlechte Klassifikationsqualität

  20. Aufgaben • Implementieren Sie bitte einen knn-Klassifikator: • Daten: wie für Beispiel Bayes (http://www.cis.uni-muenchen.de/kurse/pmaier/ML_05/material/MaterialBayes.tgz ) • Reduzieren Sie die Featuremenge mit einem geeigneten Verfahren rel. stark • Bestimmen Sie einen geeigneten Wert für k • Definieren Sie eine Repräsentation in der sie die Trainingsbeispiele abspeichern wollen und wenden sie dieses Verfahren dann an • Wählen und implementieren Sie eine Auswahlfunktion A

More Related