Kapitel 3: Regression

Kapitel 3: Regression Maschinelles Lernen und Neural Computation

Lineare Regression • 1-dim Fall: Entspricht Korrelation Rauschen AbhängigeVariablen („target“) unbhängigeVariablen Wenn w0,b=0: Korrelation Maschinelles Lernen und Neural Computation

Pseudoinverse: Siehe Bishop(1995), p.92 Perceptron als lineare Regression • Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression • Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen  • Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“) Pseudoinverse Matrix aller Targetvektoren Gewichtsmatrix Matrix aller Inputvektoren Maschinelles Lernen und Neural Computation

Nichtlineare Regression • Ähnlich wie bei Diskriminanzfunktion: • Parametrisch: z.B. Polynom: • Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression) • Allgemein: Erwartungswert, kann durch NN angenähert werden Maschinelles Lernen und Neural Computation

Diskreter Fall • Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert • kontinuierlicher Fall: Teile Input in Intervalle • Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression Maschinelles Lernen und Neural Computation

Verteilung mit Erwartungswert f(xi) Kontinuierlicher Fall (Semiparametrisch) • Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung • Likelihood: Maschinelles Lernen und Neural Computation

verschieben (bias) Dehnen, spiegeln MLP als Universaler Funktionsapproximator • Bsp: 1 Input, 1 Output, 5 Hidden • MLP kann beliebige Funktionen annähern (Hornik et al. 1990) • durch Überlagerung von (gewichteten) Sigmoiden • Komplexität durch das Zusammenspiel vieler einfacher Elemente Maschinelles Lernen und Neural Computation

Normalverteiltes Rauschen • Likelihood: • Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x)) • Entspricht dem summierten quadratischen Fehler(siehe Backpropagation) Maschinelles Lernen und Neural Computation

Training als Maximum Likelihood • Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen: • Fehler ist in jedem Punkt normalverteilt, ~N(0,) • Varianz dieser Verteilung ist konstant • Varianz des Fehlers (des Rauschens): • Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell) (verbleibender normalisierter Fehler) Maschinelles Lernen und Neural Computation

xout=P(c|xin) Klassifikation als Regression • MLP soll Posterior annähern • Verteilung der Targets ist keine Normalverteilung • Bernoulli Verteilung: • Neg. log-Likelihood: • „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen) Maschinelles Lernen und Neural Computation

Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion • Regression: • Linear + summierter quadratischer Fehler • Klassifikation (Diskriminationsfunktion): • Linear + summierter quadratischer Fehler • Klassifikation (Posterior nach Bayes): • Softmax+cross-entropy Fehler • 2 Klassen, 1 Ouput: Sigmoid+cross-entropy Maschinelles Lernen und Neural Computation

Zusammenfassung • NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression • NN schätzt Erwartungswert, um den die Targets streuen • Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte) • Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets) • Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation) Maschinelles Lernen und Neural Computation

Kapitel 3: Regression