induktive statistik regressionsanalyse n.
Download
Skip this Video
Download Presentation
Induktive Statistik: Regressionsanalyse

Loading in 2 Seconds...

play fullscreen
1 / 26

Induktive Statistik: Regressionsanalyse - PowerPoint PPT Presentation


  • 104 Views
  • Uploaded on

Induktive Statistik: Regressionsanalyse. Regression -> Output. analysieren/Regression/Linear; abhängige & unabhängige Variable einfügen/ OK. zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Induktive Statistik: Regressionsanalyse' - donat


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
regression output
Regression -> Output
  • analysieren/Regression/Linear; abhängige & unabhängige Variable

einfügen/ OK

  • .
  • zu erklärende Variable
  • erklärende Variablen
  • Regressionskoeffizient b
  • t-Werte
  • p-Wert
  • F-Wert
  • Anzahl der Beobachtungen N: df: Freiheitsgrade
o rdinary l east s quare regression
OrdinaryLeastSquare-Regression
  • statistische Zusammenhänge zwischen zwei oder mehreren Variablen
  • univariate OLS-Regression: nur eine erklärende Variable in der Schätzgleichung
  • Schätzgleichung:y = a+bx+e

y: zu erklärende Variable

a: Schnittpunkt mit y-Achse bzw. vertikaler Achsenabschnitt:

„Konstante“, d.h. der Wert der abhängigen Variable, bei dem alle

unabhängigen Variablen = 0

b: Steigung der Regressionsgerade (Regressionskoeffizient):

    • Wert besagt, um wie viel sich die AV verändert (+/-), wenn die UV um 1 Einheit steigt
    • positive/ negative Steigung entspricht einem positiven/ negativen Zusammenhang

x: erklärende Variable

ols regression
OLS-Regression

e: Fehlerterm = Residuen = unerklärte Abweichungen von einer möglichen Regressionsgeraden

    • diese werden quadriert, so daß größere Abweichungen stärker gewichtet werden
  • OLS: Lage der Regressionsgerade derart, daß die Summe der Quadrate aller Abweichungen der Punkte von der Geraden minimiert werden

=> Minimierung des Fehlerterms e²(d.h. der Summe der quadrierten Fehler): macht z.B. SPSS

  • je niedriger die Summe von e² relativ zur Gesamtvarianz der zu erklärenden Variable, desto besser das Modell
  • positive oder negative Korrelation: wachsenden x-Werten entsprechen steigende y-Werte oder umgekehrt
  • mögliches Problem: Scheinkorrelation: nicht meßbare Variablen beeinflussen erklärende und zu erklärende Variablen
ols regression annahmen
OLS-Regression: Annahmen

1. e ist normalverteilt (sonst Fehlspezifikation)

  • Überprüfung: Analysieren/ Regression/ Linear; Abhängige & unabhängige Variable einfügen & zusätzlich unter Speichern: Residuen Nicht standardisiert ankreuzen/ Weiter/ OK
  • im Dateneditor erscheinen nun die Residuen als neue Variable res_1 (bei weiteren Regressionen mit fortlaufender Nummer)
  • mit dem Kolmogorov-Smirnov-Test die Residuen auf Normalverteilung überprüfen: Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ Testvariablen/ res_1

2. E(e)=0 (kein systematischer Einfluß des Störterms auf y)

ols regression annahmen ii
OLS-Regression: Annahmen II

3. var(e)=constant (Homoskedastie der Residuen )

4. cov(eiet)=0 (Residuen korrelieren nicht miteinander)

5. cov(xiet)=0 (Residuen korrelieren nicht mit exogenen

Variablen)

  • bei Verletzung der Annahmen führt die OLS-Methode zu Schätzfehlern
  • aber: Überprüfung der Variablen auf Schiefe und Umformung schließt viele Fehler aus
pr zision einzelner regressionskoeffizienten und t wert
Präzision einzelner Regressionskoeffizientenund t-Wert
  • da die Residuen einer zufällig gezogenen Störvariable entsprechen, würden wir bei einer erneuten Ziehung andere Werte für die abhängige Variable erhalten, damit könnte sich auch der berechnete Regressionskoeffizient ändern
  • Wie verläßlich ist dieser also?

Erste Ziehung

Zweite Ziehung

b < b

  • Überprüfung der Signifikanz der Regressionskoeffizienten anhand

sog. t-Werte

  • zeigt an, ob eine einzelne Variable einflußreich
  • wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang
  • +/-: positiver/ negativer Zusammenhang
ols regression g te des modells bestimmtheitsma r
OLS-Regression: Güte des ModellsBestimmtheitsmaß R²
  • Güte einer Schätzung läßt sich mit Hilfe des Bestimmtheitsmaßes R² bestimmen
  • Interpretation: Anteil der durch das Schätzmodell erklärten Varianz an der Gesamtvarianz der abhängigen Variablen
  • 0< R²<1  je näher an 1, desto besser das Modell; die Angabe von R² in der Regressionstabelle ist notwendig
  • das R² * 100 wird im Text als Prozent interpretiert (R²=0,65: „mit dem Modell können 65% der Varianz erklärt werden“
  • Vorteil von R2: Werte verschiedener Grundgesamtheiten können direkt miteinander verglichen werden
  • Angabe von R² ist immer notwendig!
  • adjustiertes R² bei Modellen mit mehreren Variablen

(s. multiple Regression)

ols regression signifikanz
OLS-Regression: Signifikanz
  • zur Angabe der Signifikanz
    • entweder Verwendung des „p-Werts der Signifikanz“
    • oder anhand der t-Statistik (Daumenregel: ist t-Wert betragsmäßig größer als 2, dürfte der p-Wert kleiner als 0,05 sein)
  • p-Wert: Maßzahl für Signifikanz:
    • ermöglicht Beurteilung, wie „systematisch“ (Unterschiede) eine(r) UV eine AV beeinflußt
    • bzw.: Wie wahrscheinlich ist es, daß ein Zusammenhang besteht zwischen exogenen und endogener Variablen?
    • eigentlich: Test, ob bzw. wie hoch die Fehlerwahrscheinlichkeit, daß der Koeffizient oder die Konstante ungleich Null sind, und daher allgemeinere Schlüsse aus dieser Stichprobe gezogen werden dürfen
ols regression signifikanz ii
OLS-Regression: Signifikanz II
  • Signifikanzniveau/ Sicherheitsniveau:

wenn p-Wert < 0,01 oder 0,05 oder 0,1 => signifikanter Einfluß der UV: auf 1%, 5% oder 10%-Level

    • „besser“, desto näher an Null
    • aber: Wahl des Signifikanzniveaus kann von der Meßqualität der Daten abhängig gemacht werden
    • Z.B.: 1%-Niveau: Wahrscheinlichkeit von 99%, daß signifikanter Koeffizient einflußreich ist, Irrtumswahrscheinlichkeit: 1%
ols regression streudiagramm
OLS-Regression: Streudiagramm
  • nur für univariate Regression
    • rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang
    • abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße)

erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit)

    • Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK
  • Einfügen der Regressionsgeraden
    • 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK
  • Veranschaulichung der Zusammenhänge zwischen UV & AV
ols regression einflu reiche ausrei er
OLS-Regression:Einflußreiche Ausreißer
  • Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer

=> verschiedene Streudiagramme identifizieren einflußreiche Ausreißer

  • Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel)
  • Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer
  • Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten
  • Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig
  • Ausreißer raus!
multiple regression
Multiple Regression
  • mehrere erklärende Variable im Schätzmodell
  • große Stärke der Regressionsanalyse: es können Einflüsse von mehreren erklärenden Variablen geschätzt werden
  • graphisch kaum vorstellbar
  • wichtig: statistische Kennzahlen und Tests, die Hinweise auf ein korrektes Schätzmodell geben, richtig auszuwerten (z.B. die bereits erwähnten p-Werte)
multiple regression und korrigiertes r 2
Multiple Regression undkorrigiertes R2
  • das „adjustierte R²“ ist hier ein besseres Maß für den Erklärungsanteil des Modells
  • es ist so konstruiert, daß es sinkt, wenn viele nicht erklärungskräftige Variablen mitberücksichtigt werden
  • bei Modellen mit mehreren Variablen, nimmt der Erklärungsanteil mit der Anzahl der erklärenden Variablen zu
  • Extremfall: für jede Beobachtung gibt es eine erklärende Variable
    • R²=1
    • normales Bestimmtheitsmaß ist nicht mehr aussagekräftig
    • Anpassung um die Anzahl der erklärenden Variablen v
    • Modelle mit höherem R²adj sind vorzuziehen, auch wenn R² kleiner ist
  • wenn R²adj nach Variablenausschluß stark reduziert
    • Kolliniarität übersehen
multiple regressionen sensitivit tsanalyse
Multiple Regressionen: Sensitivitätsanalyse
  • wie robust sind die Ergebnisse bei geringfügigen Änderungen in der Modellspezifikation?
  • Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und Signifikanz der Koeffizienten durch geringfügige Änderungen stark ändern
  • Aufnahme und Ausschluß von zweifelhaften Variablen und Betrachtung der Auswirkung auf die Schlüsselvariablen
multiple regressionen teststrategie
Multiple Regressionen: Teststrategie
  • Vorgehensweise nach dem Grundsatz „general to specific modelling“, um Verzerrung der Regressions-koeffizienten durch unberücksichtigte Variablen zu vermeiden
  • zuerst umfassendes Modell mit allen Variablen schätzen, die auch rivalisierende Erklärungen einschließen
  • dann: insignifikante Variablen aus dem Modell ausschließen: allmählich zum „wahren“ Modell vorarbeiten (hier Multikollinearität möglich)
  • notwendig: Überprüfung, ob die Annahmen der OLS-Schätzmethode erfüllt sind
multikollinearit t
Multikollinearität
  • Def.: Vorhandensein von Kollinearitäten (Abhängigkeiten) zwischen den erklärenden Variablen
  • in multiplen Regressionsmodellen treten aber fast immer (schwache) Abhängigkeiten zwischen den UV auf
  • OLS-Schätzungen bleiben unverzerrt
  • bei starker Multikollinearität kann Variabilität der Koeffizienten-

schätzung zunehmen: d.h. schon mit einer geringfügig

anderen Modellspezifikation ganz andere Schätzergebnisse möglich

multikollinearit t ii
Multikollinearität II
  • „täuschende“ Insignifikanz bei einer oder mehreren UV möglich => Einfluß einer UV wird übersehen (bei geringen t-Werten)
  • Auslassen von Variablen mit niedrigen t-Werten kann zu einer Verzerrung der anderen Schätzer führen
  • Interpretation der Regressionskoeffizienten gestaltet sich schwieriger
  • aber: R² nicht betroffen
  • Überprüfung der Kollinearitäten hilfreich, um die Ergebnisse richtig einschätzen zu können
bestimmung von multikollinearit t
Bestimmung von Multikollinearität
  • oft als erste Approximation: Überprüfung der Korrelationskoeffizienten

=> Schwankungen nach Ausschluß von Variablen die in engem Zusammenhang mit Schlüsselvariable

  • Bestimmung von Multikollinearität: z.B. mit Variance Inflation Factor (VIF):

Werte > 10 deuten auf Multikollinearität (z.B. in SPSS im Regressionsfenster unter „Statistiken“ die Option „Multikollinearitätsdiagnose“ aktivieren)

  • Daumenregel: kein Problem, wenn R2 > R2 irgendeiner UV auf die anderen UV, oder wenn alles signifikant
dummy variablen
Dummy-Variablen
  • auch Indikator-/ und Kategorienvariablen
  • qualitative Variablen, die keine Ordnung im mathematischen Sinne angeben
  • Dummies bei 2 Kategorien:

nehmen nur Werte 0 oder 1 an, z.B.

x=1, falls Mann & x=0, falls Frau oder

x=1, falls zum Römischen Reich gehörig & x=0, falls sonstige

Dummy-Variablen können auch zwischen unterschiedlichen Zeitspannen trennen: z.B. 1500-1550=0, 1551-1600=1

interaktionsterme
Interaktionsterme
  • um den Einfluß einer Interaktion zwischen zwei Dummyvariablen zu schätzen, werden diese miteinander multipliziert
  • ergibt eine neue Dummyvariable: mit
    • Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien
    • Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden Ausgangskategorien
  • in SPSS: transformieren -> berechnen...
  • zugehöriger Regressionskoeffizient besagt ob eine Kombination der Charakteristika signifikant unterschiedlich ist von einer bloßen Addition der Koeffizienten der Ausgangsdummies
dummy variablen ii
Dummy-Variablen II
  • Dummies bei mehr als 2 Kategorien: insbes. bei mehreren Möglichkeiten qualitativer Charakteristika: z.B.
    • Ständegesellschaft:1.Stand/ 2.Stand/ 3.Stand
    • Region: Nordosteuropa/ Zentraleuropa/Südeuropa usw.
  • mehr Dummies:

z.B. Ständegesellschaft:

stand1=1, falls 1.Stand/sonstige Kategorien stand1=0

stand2=1, falls 2. Stand/sonst stand2=0

stand3=1, falls 3. Stand/sonst stand3=0

  • Vorteil: Kategorien lassen sich unterscheiden, ohne daß Anzahl der Beobachtungen in separaten Regressionen reduziert wird => Präzision der Regressionskoeffizienten bleibt erhalten
homoskedastie
Homoskedastie
  • Varianz der Residuen var(e)=konstant
heteroskedastie

y

y=a+bx

a

x3

x2

x1

x

Heteroskedastie
  • keine konstante Varianz der Residuen

(graphische Überprüfung: Trichterform!)

  • Regressionskoeffizienten

werden weiterhin unverzerrt

geschätzt

  • auf diesen basierende

Konfidenzintervalle sind un-

gültig: t-Werte falsch geschätzt

x

  • OLS-Schätzmethode nicht länger effizient
heteroskedastie ii
Heteroskedastie II
  • Überprüfung durch ‚Modifizierten White-Test‘
    • vereinfacht: Residuen werden quadriert, um festzustellen, ob ‚Trichterform‘ signifikant

e² =c+d1ŷ+d2ŷ²+Fehlerterm

ŷ = erwartete, geschätzte Werte der abhängigen Variable

c = Konstante

d = Regressionskoeffizienten

    • in SPSS:

1. Regression durchführen; dabei unstandardisierte Residuen und unstandardisierte vorhergesagte Werte speichern (im Regressionsfenster unter Speichern/ Residuen (nicht standardisiert) und vorhergesagte Werte (nicht standardisiert) ankreuzen)

heteroskedastie iii
Heteroskedastie III

2.Quadrate der vorhergesagten Werte und Residuen bilden

(Transformieren/ Berechnen)

3. Regression durchführen, mit AV: quadrierte Residuen; UV: vorhergesagte Werte und quadrierte vorhergesagte Werte

=> Unterscheiden sich die Regressoren gemeinsam signifikant von 0 = wenn F-Wertes signifikant = Heteroskedastie

  • verschiedene Möglichkeiten Heteroskedastie zu beheben
    • meist hilfreich: Transformation der Variablen (insbes. Logarithmierung)
    • Aufnahme von weiteren exogenen Variablen