1 / 12

Kapitel 4: Lernen als Optimierung

Kapitel 4: Lernen als Optimierung. Lernen als Funktionsoptimierung. Gegeben: Fehlerfunktion (i.a. neg. log Likelihood) z.B.: Gesucht: Gewichte (Parameter), die Funktion minimieren Klassischer Fall von Funktionsoptimierung  Optimierungstheorie. Fehlerflächen.

margot
Download Presentation

Kapitel 4: Lernen als Optimierung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kapitel 4: Lernen als Optimierung Maschinelles Lernen und Neural Computation

  2. Lernen als Funktionsoptimierung • Gegeben: Fehlerfunktion (i.a. neg. log Likelihood)z.B.: • Gesucht: Gewichte (Parameter), die Funktion minimieren • Klassischer Fall von Funktionsoptimierung Optimierungstheorie Maschinelles Lernen und Neural Computation

  3. Fehlerflächen • Für Minimum gilt: Gradient • 2-dim- Bsp.: Rosenbrock-Funktion, Minimum bei [1 1] • Flache Täler möglich, aber auch Sattelpunkte, steile Minima, etc. Maschinelles Lernen und Neural Computation

  4. Gradient der Fehlerfunktion • Optimierung basiert auf Gradienteninformation: • Backpropagation (nach Bishop 1995):effiziente Berechnung des Gradienten (Beitrag des Netzes): O(W) statt O(W2), siehe p.146f • ist unabhängig von der gewählten Fehlerfunktion Beitrag des Netzes Beitrag der Fehlerfunktion Maschinelles Lernen und Neural Computation

  5. Gradientenabstiegsverfahren • Einfachstes Verfahren:Ändere Gewichte direkt proportional zum Gradienten  klassische „Backpropagation“ (lt. NN-Literatur) • Langsam, Oszillationen und sogar Divergenz möglich Endpunkt nach 100 Schritten: [-1.11, 1.25], ca. 2900 flops Maschinelles Lernen und Neural Computation

  6. Gradientenabstieg mit Momentum • Momentum=„Trägheit“ • Dämpft manche Oszillationen, erzeugt aber neue, • beschleunigt (vergleichbar mit rollender Kugel), • immer noch Divergenz möglich Endpunkt nach 100 Schritten: [0.52, 0.26]; ca. 3100 flops Maschinelles Lernen und Neural Computation

  7. Line Search • Ziel: Schritt bis ins Minimum inder gewählten Richtung • Approximation durch Parabel (3 Punkte) • Ev. 2-3 mal wiederholen Endpunkt nach 100 Schritten: [0.78, 0.61], ca. 47000 flops Maschinelles Lernen und Neural Computation

  8. dt dt+1 wt+1 wt Konjugierte Gradienten • Problem des Line Search: neuer Gradient ist normal zum alten • Nimm Suchrichtung, die Minimierung in vorheriger Richtung beibehält • Wesentlich gezielteres Vorgehen • Variante: skalierter konjugierter Gradient Endpunkt nach 18 Schritten: [0.99, 0.99], ca. 11200 flops Maschinelles Lernen und Neural Computation

  9. Entspricht Paraboloid Hesse‘sche Matrix(alle 2. Ableitungen) • Annäherungsweise: • „Newton Richtung“, zeigt direkt Richtung Minimum (wenn Fläche quadratisch) •  Newton Methode Quadratische Approximation • Annäherung der Fläche um einen beliebigen Punkt: Maschinelles Lernen und Neural Computation

  10. Quasi-Newton • Rechenaufwand für Hesse Matrix enorm • Quasi-Newton:approximiert die Inverse der Hesse Matrix • In Umgebung des Minimums sehr zielführend • In anderen Gegendenkann es auchschlechter sein • Erreicht hier (!) als einzige Methode wirklich das Minumum Endpunkt nach 34 Schritten: [1 1], ca. 9500 flops Maschinelles Lernen und Neural Computation

  11. Mehrere Minima • Alle vorgestellten Verfahren sind lokale Optimierer • Globale Optimierer: Genetische Algorithmen, Stochastic Annealing • Es kann mehrere (lokale) Minima geben! • Verschiedene Minima können verschiedenen Teillösungen entsprechen •  mehrere Durchläufe mit verschiedenen Initialisierungen • Aber: es gibt auch äquivalente Minima(durch Permutation der Hidden Units und Vertauschen der Vorzeichen): M!2M äquivalente Minima (bei M H.U.) Maschinelles Lernen und Neural Computation

  12. Zusammenfassung • Gradientenbasierte Verfahren sind mächtige lokale Optimierer • Klassisches „Backpropagation“ (Gradientenabstieg) ist das schwächste davon • Aber: Backprop heißt effiziente Berechnung des Gradienten für neuronale Netze • Auch 2. Ableitung (Krümmung) nutzbar • Dringende Empfehlung: (skaliertes) konjugiertes Gradienten- oder Quasi-Newton-Verfahren verwenden! Maschinelles Lernen und Neural Computation

More Related