1 / 12

Kapitel 3: Regression

Kapitel 3: Regression. Lineare Regression. 1-dim Fall: Entspricht Korrelation. Rauschen. Abhängige Variablen („target“). unbhängige Variablen. Wenn w 0 ,b=0 : Korrelation. Pseudoinverse: Siehe Bishop(1995), p.92. Perceptron als lineare Regression.

noleta
Download Presentation

Kapitel 3: Regression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kapitel 3: Regression Maschinelles Lernen und Neural Computation

  2. Lineare Regression • 1-dim Fall: Entspricht Korrelation Rauschen AbhängigeVariablen („target“) unbhängigeVariablen Wenn w0,b=0: Korrelation Maschinelles Lernen und Neural Computation

  3. Pseudoinverse: Siehe Bishop(1995), p.92 Perceptron als lineare Regression • Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression • Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen  • Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“) Pseudoinverse Matrix aller Targetvektoren Gewichtsmatrix Matrix aller Inputvektoren Maschinelles Lernen und Neural Computation

  4. Nichtlineare Regression • Ähnlich wie bei Diskriminanzfunktion: • Parametrisch: z.B. Polynom: • Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression) • Allgemein: Erwartungswert, kann durch NN angenähert werden Maschinelles Lernen und Neural Computation

  5. Diskreter Fall • Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert • kontinuierlicher Fall: Teile Input in Intervalle • Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression Maschinelles Lernen und Neural Computation

  6. Verteilung mit Erwartungswert f(xi) Kontinuierlicher Fall (Semiparametrisch) • Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung • Likelihood: Maschinelles Lernen und Neural Computation

  7. verschieben (bias) Dehnen, spiegeln MLP als Universaler Funktionsapproximator • Bsp: 1 Input, 1 Output, 5 Hidden • MLP kann beliebige Funktionen annähern (Hornik et al. 1990) • durch Überlagerung von (gewichteten) Sigmoiden • Komplexität durch das Zusammenspiel vieler einfacher Elemente Maschinelles Lernen und Neural Computation

  8. Normalverteiltes Rauschen • Likelihood: • Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x)) • Entspricht dem summierten quadratischen Fehler(siehe Backpropagation) Maschinelles Lernen und Neural Computation

  9. Training als Maximum Likelihood • Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen: • Fehler ist in jedem Punkt normalverteilt, ~N(0,) • Varianz dieser Verteilung ist konstant • Varianz des Fehlers (des Rauschens): • Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell) (verbleibender normalisierter Fehler) Maschinelles Lernen und Neural Computation

  10. xout=P(c|xin) Klassifikation als Regression • MLP soll Posterior annähern • Verteilung der Targets ist keine Normalverteilung • Bernoulli Verteilung: • Neg. log-Likelihood: • „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen) Maschinelles Lernen und Neural Computation

  11. Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion • Regression: • Linear + summierter quadratischer Fehler • Klassifikation (Diskriminationsfunktion): • Linear + summierter quadratischer Fehler • Klassifikation (Posterior nach Bayes): • Softmax+cross-entropy Fehler • 2 Klassen, 1 Ouput: Sigmoid+cross-entropy Maschinelles Lernen und Neural Computation

  12. Zusammenfassung • NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression • NN schätzt Erwartungswert, um den die Targets streuen • Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte) • Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets) • Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation) Maschinelles Lernen und Neural Computation

More Related