kapitel 8 kernel methoden
Download
Skip this Video
Download Presentation
Kapitel 8: Kernel-Methoden

Loading in 2 Seconds...

play fullscreen
1 / 23

Kapitel 8: Kernel-Methoden - PowerPoint PPT Presentation


  • 71 Views
  • Uploaded on

Kapitel 8: Kernel-Methoden. Target:. Nach dem Lernschritt:. Ausgangsbasis: Perceptron Learning Rule. Rosenblatt (1962) Input wird dazugezählt (abgezogen), wenn Output falsch („mismatch-based“) Verwendung: Klassifikation. Mathematische Formulierung. Perceptron (1 Output): y i = +1/-1:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Kapitel 8: Kernel-Methoden' - kirby-fletcher


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
kapitel 8 kernel methoden

Kapitel 8: Kernel-Methoden

Maschinelles Lernen

und Neural Computation

ausgangsbasis perceptron learning rule

Target:

Nach dem Lernschritt:

Ausgangsbasis: Perceptron Learning Rule
  • Rosenblatt (1962)
  • Input wird dazugezählt (abgezogen), wenn Output falsch(„mismatch-based“)
  • Verwendung: Klassifikation

Maschinelles Lernen

und Neural Computation

mathematische formulierung
Mathematische Formulierung
  • Perceptron (1 Output):
  • yi = +1/-1:
  • Daten kommen als inneres Produkt vor („duale Darstellung“)

Inneres Produkt(dot product)

Maschinelles Lernen

und Neural Computation

vor und nachteile des perceptrons
Vor- und Nachteile des Perceptrons
  • Vorteile:
    • Globale Lösung garantiert (keine lokalen Minima)
    • Leicht lösbar bzw. otpimierbar
  • Nachteil:
    • Auf lineare Separierbarkeit beschränkt
  • Idee:
    • Transformation der Daten auf einen Raum, in dem das Problem linear trennbar ist

Maschinelles Lernen

und Neural Computation

vergleiche diskriminanzanalyse
Vergleiche Diskriminanzanalyse
  • Allgemein linear:beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung
  • Neuronales Netz:NN implementiert adaptive Vorverarbeitungnichtlinear in Parametern (w)durch Approximationstheorem: beliebig nichtlineare Diskriminanzfunktion

MLP

RBFN

Maschinelles Lernen

und Neural Computation

kernels
Kernels
  • Ziel ist eine fix bestimmte Transformation xi→Φ(xi), sodass das Problem linear trennbar ist (ev. hochdimensional)
  • Kernel: Funktion, die als inneres Produkt von Φs darstellbar ist:
  • Φmuss nicht einmal bekannt sein

Maschinelles Lernen

und Neural Computation

beispiel polynomischer kernel
Beispiel: Polynomischer Kernel
  • 2 Dimensionen:
  • Kernel entspricht tatsächlich einem inneren Produkt aus Vektoren mit „Vorverarbeitung“

Maschinelles Lernen

und Neural Computation

beispiel
Beispiel
  • Durch Transformation wird Problem linear trennbar

Ф

x22

x2

x1

x12

Ф-1

Maschinelles Lernen

und Neural Computation

die wirkung des kernel tricks
Die Wirkung des Kernel-Tricks
  • Einsatz des Kernels, z.B:
  • 16x16-dimensionale Vektoren (z.B. Pixel-Bilder), Polynom 5. Grades: Dimension = 1010
    • Inneres Produkt zweier 10000000000-dim. Vektoren
  • Berechnung erfolgt im niedrigdimensionalen Raum:
    • Inneres Produkt zweier 256-dim. Vektoren
    • 5-te Potenz

Maschinelles Lernen

und Neural Computation

gauss scher kernel
Gauss‘scher Kernel
  • Ф nicht darstellbar, hat aber unendliche Dimension!(wenn Trainingsset unbegrenzt groß sein kann)
  • Folgt aus Mercer‘s Theorem:
    • Betrachte die Kernel-Matrixüber alle Trainingsbeispiele
    • Berechne Eigenwerte und -funktionen, dann gilt:
    • Für Gauss‘schen Kernel gilt: Kernel-Matrix hat vollen Rang!Dimension so groß wie das Trainingsset

Maschinelles Lernen

und Neural Computation

large margin classifier
Large Margin Classifier
  • Hochdimensionaler Raum: Overfitting leicht möglich
  • Lösung: Suche Entscheidungslinie (Hyperebene) mit größtem Abstand von den Punkten
  • Optimierung:Minimiere(Maximiere )Randbedingung:

Abstand maximal

w

Maschinelles Lernen

und Neural Computation

optimierung 1
Optimierung 1
  • Quadratisches Optimierungsproblem
  • Lösungsansatz: Lagrange-Multiplikanten
  • Randbedingung:
  • 1. Ableitung nach w und b muss 0 sein. Das ergibt:

Maschinelles Lernen

und Neural Computation

optimierung 2
Optimierung 2
  • Einsetzen der zuletzt ergebenen Terme:
  • „Duale“ Formulierung
  • Wichtig: Daten stehen wieder als inneres Produkt (dot product) im Term!
  • Kernel-Trick kann wieder angewandt werden

Maschinelles Lernen

und Neural Computation

optimierung 3
Optimierung 3
  • Minimierung ist quadratisches Programmierungsproblem
  • Globales Minimum garantiert
  • Methoden
    • Chunking nutzt die Tatsache dass viele αi=0
    • Decomposition Methods
    • Sequential Minimal Optimization (SMO)löst eine Sequenz von Problemen der Größe 2(Paare von Variablen)

Maschinelles Lernen

und Neural Computation

support vectors
Support Vectors
  • Support-Vectors: Punkte am Rand des Margins
  • Bestimmen alleine die Lösung,für alle anderen Punkte gilt:αi=0, können weggelassen werden

Kernelfunktion

Rückprojektion

Support Vectors

Maschinelles Lernen

und Neural Computation

daten mit rauschen

w

Daten mit Rauschen
  • Bisherige Annahme: Problem ist exakt trennbar
  • Bei Rauschen: Einführung von „Slack variables“:weicht den strengen Margin etwas auf

Lernparameter

  • Duales Problem (Lagrange) bleibtgleich (bis auf Randbedingung)

Maschinelles Lernen

und Neural Computation

beispiel1
Beispiel

Schätzung nur mit Support-Vectors ergibt die selbe Lösung:

Kernel: Polynom 3. Ordnung

Maschinelles Lernen

und Neural Computation

bedingungen f r kernels
Bedingungen für Kernels
  • Jede Funktion K(x,z), für die gilt
  • bzw.

ist eine Kernelfunktion („positive definite“ Kernels)

  • Ist K1 und K2 ein Kernel, so sind auchaK1 (für a>0)K1+K2K1*K2Kernel
  • Wahl des richtigen Kernels (Vorverarbeitung) ist entscheidend! Modellselektion notwendig

für beliebige Trainingspunkte xi

Maschinelles Lernen

und Neural Computation

svm theorie vc dimension
SVM-Theorie: VC-Dimension
  • „Shatter“: Wenn unter n Punkten alle 2n Klassifikationen möglich sind
  • VC-Dimension h … kleinstes m von Punkten, für die der Lerner weniger als 2m Klassifikationen schafft
  • Z.B.: VC-Dim(Perceptron)=k+1 (k … Inputdimension)
  • Für komplexe Lerner kann oft nur Schranke angegeben werden

Maschinelles Lernen

und Neural Computation

svm theorie structural risk minimization
SVM-Theorie: Structural risk minimization
  • Schranke für das „Risiko“ (Fehler)
  • Maximieren des Margins beschränkt VC-Dimension
  • ||w|| kann als Regularisierungsterm betrachtet werden
  • Gauss-Kernel: VC-Dim h=∞

Mit Wahrscheinlichkeit 1-δ

Anzahl Trainingspunkte

Empirischer FehleramTrainingsset

Minimal möglicher Fehler

Maschinelles Lernen

und Neural Computation

svm und neuronale netze
SVM und Neuronale Netze
  • Gauss-Kernel: RBF
  • Sigmoid-Kernel: MLP
  • So viele „Hidden Units“ wie Trainingsmuster
  • Allerdings andere Berechnung
  • Raum ist ∞-dimensional
  • SVM und Boosting: formaler Zusammenhangvgl. Boosting: Punkte an der Entscheidungsgrenze bekommen größte Bedeutung (wie SV)

Maschinelles Lernen

und Neural Computation

andere kernelverfahren
Andere Kernelverfahren
  • Kernel-Trick funktioniert bei allen Methoden, in denen Daten als inneres Produkt vorkommen
    • Kernel-PCA
    • Kernel-Fisher Diksriminante
    • Kernel Regression
  • Gauss‘sche Prozesse

Maschinelles Lernen

und Neural Computation

zusammenfassung
Zusammenfassung
  • SVMs sind interessante Alternative zu klassischen neuronalen Netzen
  • Kernel-Trick: Inneres Produkt von hochdimensionalen „Features“ (Vorverabeitung) kann niedrigdimensional berechnet werden
  • Beschränken der VC-Dim. (Vermeidung von Overfitting): Large Margin Classifier
  • Lineares Modell, Quadratische Programmierung, Minimum garantiert
  • Support Vectors: Punkte am Margin, sind alleine für Lösung verantwortlich
  • Aber: Overfitting dennoch möglich
  • Modellselektion notwendig
  • Wahl des geeigneten Kernels ist sehr wichtig!

Maschinelles Lernen

und Neural Computation

ad