Kapitel 8: Kernel-Methoden

Kapitel 8: Kernel-Methoden Maschinelles Lernen und Neural Computation

Target: Nach dem Lernschritt: Ausgangsbasis: Perceptron Learning Rule • Rosenblatt (1962) • Input wird dazugezählt (abgezogen), wenn Output falsch(„mismatch-based“) • Verwendung: Klassifikation Maschinelles Lernen und Neural Computation

Mathematische Formulierung • Perceptron (1 Output): • yi = +1/-1: • Daten kommen als inneres Produkt vor („duale Darstellung“) Inneres Produkt(dot product) Maschinelles Lernen und Neural Computation

Vor- und Nachteile des Perceptrons • Vorteile: • Globale Lösung garantiert (keine lokalen Minima) • Leicht lösbar bzw. otpimierbar • Nachteil: • Auf lineare Separierbarkeit beschränkt • Idee: • Transformation der Daten auf einen Raum, in dem das Problem linear trennbar ist Maschinelles Lernen und Neural Computation

Vergleiche Diskriminanzanalyse • Allgemein linear:beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung • Neuronales Netz:NN implementiert adaptive Vorverarbeitungnichtlinear in Parametern (w)durch Approximationstheorem: beliebig nichtlineare Diskriminanzfunktion MLP RBFN Maschinelles Lernen und Neural Computation

Kernels • Ziel ist eine fix bestimmte Transformation xi→Φ(xi), sodass das Problem linear trennbar ist (ev. hochdimensional) • Kernel: Funktion, die als inneres Produkt von Φs darstellbar ist: • Φmuss nicht einmal bekannt sein Maschinelles Lernen und Neural Computation

Beispiel: Polynomischer Kernel • 2 Dimensionen: • Kernel entspricht tatsächlich einem inneren Produkt aus Vektoren mit „Vorverarbeitung“ Maschinelles Lernen und Neural Computation

Beispiel • Durch Transformation wird Problem linear trennbar Ф x22 x2 x1 x12 Ф-1 Maschinelles Lernen und Neural Computation

Die Wirkung des Kernel-Tricks • Einsatz des Kernels, z.B: • 16x16-dimensionale Vektoren (z.B. Pixel-Bilder), Polynom 5. Grades: Dimension = 1010 • Inneres Produkt zweier 10000000000-dim. Vektoren • Berechnung erfolgt im niedrigdimensionalen Raum: • Inneres Produkt zweier 256-dim. Vektoren • 5-te Potenz Maschinelles Lernen und Neural Computation

Gauss‘scher Kernel • Ф nicht darstellbar, hat aber unendliche Dimension!(wenn Trainingsset unbegrenzt groß sein kann) • Folgt aus Mercer‘s Theorem: • Betrachte die Kernel-Matrixüber alle Trainingsbeispiele • Berechne Eigenwerte und -funktionen, dann gilt: • Für Gauss‘schen Kernel gilt: Kernel-Matrix hat vollen Rang!Dimension so groß wie das Trainingsset Maschinelles Lernen und Neural Computation

Large Margin Classifier • Hochdimensionaler Raum: Overfitting leicht möglich • Lösung: Suche Entscheidungslinie (Hyperebene) mit größtem Abstand von den Punkten • Optimierung:Minimiere(Maximiere )Randbedingung: Abstand maximal w Maschinelles Lernen und Neural Computation

Optimierung 1 • Quadratisches Optimierungsproblem • Lösungsansatz: Lagrange-Multiplikanten • Randbedingung: • 1. Ableitung nach w und b muss 0 sein. Das ergibt: Maschinelles Lernen und Neural Computation

Optimierung 2 • Einsetzen der zuletzt ergebenen Terme: • „Duale“ Formulierung • Wichtig: Daten stehen wieder als inneres Produkt (dot product) im Term! • Kernel-Trick kann wieder angewandt werden Maschinelles Lernen und Neural Computation

Optimierung 3 • Minimierung ist quadratisches Programmierungsproblem • Globales Minimum garantiert • Methoden • Chunking nutzt die Tatsache dass viele αi=0 • Decomposition Methods • Sequential Minimal Optimization (SMO)löst eine Sequenz von Problemen der Größe 2(Paare von Variablen) Maschinelles Lernen und Neural Computation

Support Vectors • Support-Vectors: Punkte am Rand des Margins • Bestimmen alleine die Lösung,für alle anderen Punkte gilt:αi=0, können weggelassen werden Kernelfunktion Rückprojektion Support Vectors Maschinelles Lernen und Neural Computation

w Daten mit Rauschen • Bisherige Annahme: Problem ist exakt trennbar • Bei Rauschen: Einführung von „Slack variables“:weicht den strengen Margin etwas auf Lernparameter • Duales Problem (Lagrange) bleibtgleich (bis auf Randbedingung) Maschinelles Lernen und Neural Computation

Beispiel Schätzung nur mit Support-Vectors ergibt die selbe Lösung: Kernel: Polynom 3. Ordnung Maschinelles Lernen und Neural Computation

Bedingungen für Kernels • Jede Funktion K(x,z), für die gilt • bzw. ist eine Kernelfunktion („positive definite“ Kernels) • Ist K1 und K2 ein Kernel, so sind auchaK1 (für a>0)K1+K2K1*K2Kernel • Wahl des richtigen Kernels (Vorverarbeitung) ist entscheidend! Modellselektion notwendig für beliebige Trainingspunkte xi Maschinelles Lernen und Neural Computation

SVM-Theorie: VC-Dimension • „Shatter“: Wenn unter n Punkten alle 2n Klassifikationen möglich sind • VC-Dimension h … kleinstes m von Punkten, für die der Lerner weniger als 2m Klassifikationen schafft • Z.B.: VC-Dim(Perceptron)=k+1 (k … Inputdimension) • Für komplexe Lerner kann oft nur Schranke angegeben werden Maschinelles Lernen und Neural Computation

SVM-Theorie: Structural risk minimization • Schranke für das „Risiko“ (Fehler) • Maximieren des Margins beschränkt VC-Dimension • ||w|| kann als Regularisierungsterm betrachtet werden • Gauss-Kernel: VC-Dim h=∞ Mit Wahrscheinlichkeit 1-δ Anzahl Trainingspunkte Empirischer FehleramTrainingsset Minimal möglicher Fehler Maschinelles Lernen und Neural Computation

SVM und Neuronale Netze • Gauss-Kernel: RBF • Sigmoid-Kernel: MLP • So viele „Hidden Units“ wie Trainingsmuster • Allerdings andere Berechnung • Raum ist ∞-dimensional • SVM und Boosting: formaler Zusammenhangvgl. Boosting: Punkte an der Entscheidungsgrenze bekommen größte Bedeutung (wie SV) Maschinelles Lernen und Neural Computation

Andere Kernelverfahren • Kernel-Trick funktioniert bei allen Methoden, in denen Daten als inneres Produkt vorkommen • Kernel-PCA • Kernel-Fisher Diksriminante • Kernel Regression • Gauss‘sche Prozesse Maschinelles Lernen und Neural Computation

Zusammenfassung • SVMs sind interessante Alternative zu klassischen neuronalen Netzen • Kernel-Trick: Inneres Produkt von hochdimensionalen „Features“ (Vorverabeitung) kann niedrigdimensional berechnet werden • Beschränken der VC-Dim. (Vermeidung von Overfitting): Large Margin Classifier • Lineares Modell, Quadratische Programmierung, Minimum garantiert • Support Vectors: Punkte am Margin, sind alleine für Lösung verantwortlich • Aber: Overfitting dennoch möglich • Modellselektion notwendig • Wahl des geeigneten Kernels ist sehr wichtig! Maschinelles Lernen und Neural Computation

Kapitel 8: Kernel-Methoden