Kapitel 3 regression
Download
1 / 12

Kapitel 3: Regression - PowerPoint PPT Presentation


  • 90 Views
  • Uploaded on

Kapitel 3: Regression. Lineare Regression. 1-dim Fall: Entspricht Korrelation. Rauschen. Abhängige Variablen („target“). unbhängige Variablen. Wenn w 0 ,b=0 : Korrelation. Pseudoinverse: Siehe Bishop(1995), p.92. Perceptron als lineare Regression.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Kapitel 3: Regression' - noleta


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Kapitel 3 regression

Kapitel 3: Regression

Maschinelles Lernen

und Neural Computation


Lineare regression
Lineare Regression

  • 1-dim Fall: Entspricht Korrelation

Rauschen

AbhängigeVariablen („target“)

unbhängigeVariablen

Wenn w0,b=0: Korrelation

Maschinelles Lernen

und Neural Computation


Perceptron als lineare regression

Pseudoinverse:

Siehe Bishop(1995), p.92

Perceptron als lineare Regression

  • Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression

  • Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen 

  • Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“)

Pseudoinverse

Matrix aller Targetvektoren

Gewichtsmatrix

Matrix aller Inputvektoren

Maschinelles Lernen

und Neural Computation


Nichtlineare regression
Nichtlineare Regression

  • Ähnlich wie bei Diskriminanzfunktion:

    • Parametrisch: z.B. Polynom:

    • Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression)

  • Allgemein:

Erwartungswert, kann durch NN angenähert werden

Maschinelles Lernen

und Neural Computation


Diskreter fall
Diskreter Fall

  • Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert

  • kontinuierlicher Fall: Teile Input in Intervalle

  • Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression

Maschinelles Lernen

und Neural Computation


Kontinuierlicher fall semiparametrisch

Verteilung mit Erwartungswert f(xi)

Kontinuierlicher Fall (Semiparametrisch)

  • Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung

  • Likelihood:

Maschinelles Lernen

und Neural Computation


Mlp als universaler funktionsapproximator

verschieben

(bias)

Dehnen, spiegeln

MLP als Universaler Funktionsapproximator

  • Bsp: 1 Input, 1 Output, 5 Hidden

  • MLP kann beliebige Funktionen annähern (Hornik et al. 1990)

  • durch Überlagerung von (gewichteten) Sigmoiden

  • Komplexität durch das Zusammenspiel vieler einfacher Elemente

Maschinelles Lernen

und Neural Computation


Normalverteiltes rauschen
Normalverteiltes Rauschen

  • Likelihood:

  • Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x))

  • Entspricht dem summierten quadratischen Fehler(siehe Backpropagation)

Maschinelles Lernen

und Neural Computation


Training als maximum likelihood
Training als Maximum Likelihood

  • Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen:

    • Fehler ist in jedem Punkt normalverteilt, ~N(0,)

    • Varianz dieser Verteilung ist konstant

  • Varianz des Fehlers (des Rauschens):

  • Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell)

(verbleibender normalisierter Fehler)

Maschinelles Lernen

und Neural Computation


Klassifikation als regression

xout=P(c|xin)

Klassifikation als Regression

  • MLP soll Posterior annähern

  • Verteilung der Targets ist keine Normalverteilung

  • Bernoulli Verteilung:

  • Neg. log-Likelihood:

  • „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen)

Maschinelles Lernen

und Neural Computation


Optimale paarungen transferfunktion am output fehlerfunktion
Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion

  • Regression:

    • Linear + summierter quadratischer Fehler

  • Klassifikation (Diskriminationsfunktion):

    • Linear + summierter quadratischer Fehler

  • Klassifikation (Posterior nach Bayes):

    • Softmax+cross-entropy Fehler

    • 2 Klassen, 1 Ouput: Sigmoid+cross-entropy

Maschinelles Lernen

und Neural Computation


Zusammenfassung
Zusammenfassung

  • NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression

  • NN schätzt Erwartungswert, um den die Targets streuen

  • Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte)

  • Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets)

  • Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation)

Maschinelles Lernen

und Neural Computation


ad