kapitel 3 regression
Download
Skip this Video
Download Presentation
Kapitel 3: Regression

Loading in 2 Seconds...

play fullscreen
1 / 12

Kapitel 3: Regression - PowerPoint PPT Presentation


  • 90 Views
  • Uploaded on

Kapitel 3: Regression. Lineare Regression. 1-dim Fall: Entspricht Korrelation. Rauschen. Abhängige Variablen („target“). unbhängige Variablen. Wenn w 0 ,b=0 : Korrelation. Pseudoinverse: Siehe Bishop(1995), p.92. Perceptron als lineare Regression.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Kapitel 3: Regression' - noleta


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
kapitel 3 regression

Kapitel 3: Regression

Maschinelles Lernen

und Neural Computation

lineare regression
Lineare Regression
  • 1-dim Fall: Entspricht Korrelation

Rauschen

AbhängigeVariablen („target“)

unbhängigeVariablen

Wenn w0,b=0: Korrelation

Maschinelles Lernen

und Neural Computation

perceptron als lineare regression

Pseudoinverse:

Siehe Bishop(1995), p.92

Perceptron als lineare Regression
  • Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression
  • Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen 
  • Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“)

Pseudoinverse

Matrix aller Targetvektoren

Gewichtsmatrix

Matrix aller Inputvektoren

Maschinelles Lernen

und Neural Computation

nichtlineare regression
Nichtlineare Regression
  • Ähnlich wie bei Diskriminanzfunktion:
    • Parametrisch: z.B. Polynom:
    • Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression)
  • Allgemein:

Erwartungswert, kann durch NN angenähert werden

Maschinelles Lernen

und Neural Computation

diskreter fall
Diskreter Fall
  • Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert
  • kontinuierlicher Fall: Teile Input in Intervalle
  • Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression

Maschinelles Lernen

und Neural Computation

kontinuierlicher fall semiparametrisch

Verteilung mit Erwartungswert f(xi)

Kontinuierlicher Fall (Semiparametrisch)
  • Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung
  • Likelihood:

Maschinelles Lernen

und Neural Computation

mlp als universaler funktionsapproximator

verschieben

(bias)

Dehnen, spiegeln

MLP als Universaler Funktionsapproximator
  • Bsp: 1 Input, 1 Output, 5 Hidden
  • MLP kann beliebige Funktionen annähern (Hornik et al. 1990)
  • durch Überlagerung von (gewichteten) Sigmoiden
  • Komplexität durch das Zusammenspiel vieler einfacher Elemente

Maschinelles Lernen

und Neural Computation

normalverteiltes rauschen
Normalverteiltes Rauschen
  • Likelihood:
  • Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x))
  • Entspricht dem summierten quadratischen Fehler(siehe Backpropagation)

Maschinelles Lernen

und Neural Computation

training als maximum likelihood
Training als Maximum Likelihood
  • Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen:
    • Fehler ist in jedem Punkt normalverteilt, ~N(0,)
    • Varianz dieser Verteilung ist konstant
  • Varianz des Fehlers (des Rauschens):
  • Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell)

(verbleibender normalisierter Fehler)

Maschinelles Lernen

und Neural Computation

klassifikation als regression

xout=P(c|xin)

Klassifikation als Regression
  • MLP soll Posterior annähern
  • Verteilung der Targets ist keine Normalverteilung
  • Bernoulli Verteilung:
  • Neg. log-Likelihood:
  • „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen)

Maschinelles Lernen

und Neural Computation

optimale paarungen transferfunktion am output fehlerfunktion
Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion
  • Regression:
    • Linear + summierter quadratischer Fehler
  • Klassifikation (Diskriminationsfunktion):
    • Linear + summierter quadratischer Fehler
  • Klassifikation (Posterior nach Bayes):
    • Softmax+cross-entropy Fehler
    • 2 Klassen, 1 Ouput: Sigmoid+cross-entropy

Maschinelles Lernen

und Neural Computation

zusammenfassung
Zusammenfassung
  • NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression
  • NN schätzt Erwartungswert, um den die Targets streuen
  • Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte)
  • Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets)
  • Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation)

Maschinelles Lernen

und Neural Computation

ad