Kapitel 8 kernel methoden
This presentation is the property of its rightful owner.
Sponsored Links
1 / 23

Kapitel 8: Kernel-Methoden PowerPoint PPT Presentation


  • 46 Views
  • Uploaded on
  • Presentation posted in: General

Kapitel 8: Kernel-Methoden. Target:. Nach dem Lernschritt:. Ausgangsbasis: Perceptron Learning Rule. Rosenblatt (1962) Input wird dazugezählt (abgezogen), wenn Output falsch („mismatch-based“) Verwendung: Klassifikation. Mathematische Formulierung. Perceptron (1 Output): y i = +1/-1:

Download Presentation

Kapitel 8: Kernel-Methoden

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Kapitel 8 kernel methoden

Kapitel 8: Kernel-Methoden

Maschinelles Lernen

und Neural Computation


Ausgangsbasis perceptron learning rule

Target:

Nach dem Lernschritt:

Ausgangsbasis: Perceptron Learning Rule

  • Rosenblatt (1962)

  • Input wird dazugezählt (abgezogen), wenn Output falsch(„mismatch-based“)

  • Verwendung: Klassifikation

Maschinelles Lernen

und Neural Computation


Mathematische formulierung

Mathematische Formulierung

  • Perceptron (1 Output):

  • yi = +1/-1:

  • Daten kommen als inneres Produkt vor („duale Darstellung“)

Inneres Produkt(dot product)

Maschinelles Lernen

und Neural Computation


Vor und nachteile des perceptrons

Vor- und Nachteile des Perceptrons

  • Vorteile:

    • Globale Lösung garantiert (keine lokalen Minima)

    • Leicht lösbar bzw. otpimierbar

  • Nachteil:

    • Auf lineare Separierbarkeit beschränkt

  • Idee:

    • Transformation der Daten auf einen Raum, in dem das Problem linear trennbar ist

Maschinelles Lernen

und Neural Computation


Vergleiche diskriminanzanalyse

Vergleiche Diskriminanzanalyse

  • Allgemein linear:beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung

  • Neuronales Netz:NN implementiert adaptive Vorverarbeitungnichtlinear in Parametern (w)durch Approximationstheorem: beliebig nichtlineare Diskriminanzfunktion

MLP

RBFN

Maschinelles Lernen

und Neural Computation


Kernels

Kernels

  • Ziel ist eine fix bestimmte Transformation xi→Φ(xi), sodass das Problem linear trennbar ist (ev. hochdimensional)

  • Kernel: Funktion, die als inneres Produkt von Φs darstellbar ist:

  • Φmuss nicht einmal bekannt sein

Maschinelles Lernen

und Neural Computation


Beispiel polynomischer kernel

Beispiel: Polynomischer Kernel

  • 2 Dimensionen:

  • Kernel entspricht tatsächlich einem inneren Produkt aus Vektoren mit „Vorverarbeitung“

Maschinelles Lernen

und Neural Computation


Beispiel

Beispiel

  • Durch Transformation wird Problem linear trennbar

Ф

x22

x2

x1

x12

Ф-1

Maschinelles Lernen

und Neural Computation


Die wirkung des kernel tricks

Die Wirkung des Kernel-Tricks

  • Einsatz des Kernels, z.B:

  • 16x16-dimensionale Vektoren (z.B. Pixel-Bilder), Polynom 5. Grades: Dimension = 1010

    • Inneres Produkt zweier 10000000000-dim. Vektoren

  • Berechnung erfolgt im niedrigdimensionalen Raum:

    • Inneres Produkt zweier 256-dim. Vektoren

    • 5-te Potenz

Maschinelles Lernen

und Neural Computation


Gauss scher kernel

Gauss‘scher Kernel

  • Ф nicht darstellbar, hat aber unendliche Dimension!(wenn Trainingsset unbegrenzt groß sein kann)

  • Folgt aus Mercer‘s Theorem:

    • Betrachte die Kernel-Matrixüber alle Trainingsbeispiele

    • Berechne Eigenwerte und -funktionen, dann gilt:

    • Für Gauss‘schen Kernel gilt: Kernel-Matrix hat vollen Rang!Dimension so groß wie das Trainingsset

Maschinelles Lernen

und Neural Computation


Large margin classifier

Large Margin Classifier

  • Hochdimensionaler Raum: Overfitting leicht möglich

  • Lösung: Suche Entscheidungslinie (Hyperebene) mit größtem Abstand von den Punkten

  • Optimierung:Minimiere(Maximiere )Randbedingung:

Abstand maximal

w

Maschinelles Lernen

und Neural Computation


Optimierung 1

Optimierung 1

  • Quadratisches Optimierungsproblem

  • Lösungsansatz: Lagrange-Multiplikanten

  • Randbedingung:

  • 1. Ableitung nach w und b muss 0 sein. Das ergibt:

Maschinelles Lernen

und Neural Computation


Optimierung 2

Optimierung 2

  • Einsetzen der zuletzt ergebenen Terme:

  • „Duale“ Formulierung

  • Wichtig: Daten stehen wieder als inneres Produkt (dot product) im Term!

  • Kernel-Trick kann wieder angewandt werden

Maschinelles Lernen

und Neural Computation


Optimierung 3

Optimierung 3

  • Minimierung ist quadratisches Programmierungsproblem

  • Globales Minimum garantiert

  • Methoden

    • Chunking nutzt die Tatsache dass viele αi=0

    • Decomposition Methods

    • Sequential Minimal Optimization (SMO)löst eine Sequenz von Problemen der Größe 2(Paare von Variablen)

Maschinelles Lernen

und Neural Computation


Support vectors

Support Vectors

  • Support-Vectors: Punkte am Rand des Margins

  • Bestimmen alleine die Lösung,für alle anderen Punkte gilt:αi=0, können weggelassen werden

Kernelfunktion

Rückprojektion

Support Vectors

Maschinelles Lernen

und Neural Computation


Daten mit rauschen

w

Daten mit Rauschen

  • Bisherige Annahme: Problem ist exakt trennbar

  • Bei Rauschen: Einführung von „Slack variables“:weicht den strengen Margin etwas auf

Lernparameter

  • Duales Problem (Lagrange) bleibtgleich (bis auf Randbedingung)

Maschinelles Lernen

und Neural Computation


Beispiel1

Beispiel

Schätzung nur mit Support-Vectors ergibt die selbe Lösung:

Kernel: Polynom 3. Ordnung

Maschinelles Lernen

und Neural Computation


Bedingungen f r kernels

Bedingungen für Kernels

  • Jede Funktion K(x,z), für die gilt

  • bzw.

    ist eine Kernelfunktion („positive definite“ Kernels)

  • Ist K1 und K2 ein Kernel, so sind auchaK1 (für a>0)K1+K2K1*K2Kernel

  • Wahl des richtigen Kernels (Vorverarbeitung) ist entscheidend! Modellselektion notwendig

für beliebige Trainingspunkte xi

Maschinelles Lernen

und Neural Computation


Svm theorie vc dimension

SVM-Theorie: VC-Dimension

  • „Shatter“: Wenn unter n Punkten alle 2n Klassifikationen möglich sind

  • VC-Dimension h … kleinstes m von Punkten, für die der Lerner weniger als 2m Klassifikationen schafft

  • Z.B.: VC-Dim(Perceptron)=k+1 (k … Inputdimension)

  • Für komplexe Lerner kann oft nur Schranke angegeben werden

Maschinelles Lernen

und Neural Computation


Svm theorie structural risk minimization

SVM-Theorie: Structural risk minimization

  • Schranke für das „Risiko“ (Fehler)

  • Maximieren des Margins beschränkt VC-Dimension

  • ||w|| kann als Regularisierungsterm betrachtet werden

  • Gauss-Kernel: VC-Dim h=∞

Mit Wahrscheinlichkeit 1-δ

Anzahl Trainingspunkte

Empirischer FehleramTrainingsset

Minimal möglicher Fehler

Maschinelles Lernen

und Neural Computation


Svm und neuronale netze

SVM und Neuronale Netze

  • Gauss-Kernel: RBF

  • Sigmoid-Kernel: MLP

  • So viele „Hidden Units“ wie Trainingsmuster

  • Allerdings andere Berechnung

  • Raum ist ∞-dimensional

  • SVM und Boosting: formaler Zusammenhangvgl. Boosting: Punkte an der Entscheidungsgrenze bekommen größte Bedeutung (wie SV)

Maschinelles Lernen

und Neural Computation


Andere kernelverfahren

Andere Kernelverfahren

  • Kernel-Trick funktioniert bei allen Methoden, in denen Daten als inneres Produkt vorkommen

    • Kernel-PCA

    • Kernel-Fisher Diksriminante

    • Kernel Regression

  • Gauss‘sche Prozesse

Maschinelles Lernen

und Neural Computation


Zusammenfassung

Zusammenfassung

  • SVMs sind interessante Alternative zu klassischen neuronalen Netzen

  • Kernel-Trick: Inneres Produkt von hochdimensionalen „Features“ (Vorverabeitung) kann niedrigdimensional berechnet werden

  • Beschränken der VC-Dim. (Vermeidung von Overfitting): Large Margin Classifier

  • Lineares Modell, Quadratische Programmierung, Minimum garantiert

  • Support Vectors: Punkte am Margin, sind alleine für Lösung verantwortlich

  • Aber: Overfitting dennoch möglich

  • Modellselektion notwendig

  • Wahl des geeigneten Kernels ist sehr wichtig!

Maschinelles Lernen

und Neural Computation


  • Login