Induktive statistik regressionsanalyse
This presentation is the property of its rightful owner.
Sponsored Links
1 / 26

Induktive Statistik: Regressionsanalyse PowerPoint PPT Presentation


  • 67 Views
  • Uploaded on
  • Presentation posted in: General

Induktive Statistik: Regressionsanalyse. Regression -> Output. analysieren/Regression/Linear; abhängige & unabhängige Variable einfügen/ OK. zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert

Download Presentation

Induktive Statistik: Regressionsanalyse

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Induktive statistik regressionsanalyse

Induktive Statistik: Regressionsanalyse


Regression output

Regression -> Output

  • analysieren/Regression/Linear; abhängige & unabhängige Variable

    einfügen/ OK

  • .

  • zu erklärende Variable

  • erklärende Variablen

  • Regressionskoeffizient b

  • t-Werte

  • p-Wert

  • F-Wert

  • Anzahl der Beobachtungen N: df: Freiheitsgrade


O rdinary l east s quare regression

OrdinaryLeastSquare-Regression

  • statistische Zusammenhänge zwischen zwei oder mehreren Variablen

  • univariate OLS-Regression: nur eine erklärende Variable in der Schätzgleichung

  • Schätzgleichung:y = a+bx+e

    y: zu erklärende Variable

    a: Schnittpunkt mit y-Achse bzw. vertikaler Achsenabschnitt:

    „Konstante“, d.h. der Wert der abhängigen Variable, bei dem alle

    unabhängigen Variablen = 0

    b: Steigung der Regressionsgerade (Regressionskoeffizient):

    • Wert besagt, um wie viel sich die AV verändert (+/-), wenn die UV um 1 Einheit steigt

    • positive/ negative Steigung entspricht einem positiven/ negativen Zusammenhang

      x: erklärende Variable


Ols regression

OLS-Regression

e: Fehlerterm = Residuen = unerklärte Abweichungen von einer möglichen Regressionsgeraden

  • diese werden quadriert, so daß größere Abweichungen stärker gewichtet werden

  • OLS: Lage der Regressionsgerade derart, daß die Summe der Quadrate aller Abweichungen der Punkte von der Geraden minimiert werden

    => Minimierung des Fehlerterms e²(d.h. der Summe der quadrierten Fehler): macht z.B. SPSS

  • je niedriger die Summe von e² relativ zur Gesamtvarianz der zu erklärenden Variable, desto besser das Modell

  • positive oder negative Korrelation: wachsenden x-Werten entsprechen steigende y-Werte oder umgekehrt

  • mögliches Problem: Scheinkorrelation: nicht meßbare Variablen beeinflussen erklärende und zu erklärende Variablen


  • Ols regression annahmen

    OLS-Regression: Annahmen

    1. e ist normalverteilt(sonst Fehlspezifikation)

    • Überprüfung: Analysieren/ Regression/ Linear; Abhängige & unabhängige Variable einfügen & zusätzlich unter Speichern: Residuen Nicht standardisiert ankreuzen/ Weiter/ OK

    • im Dateneditor erscheinen nun die Residuen als neue Variable res_1 (bei weiteren Regressionen mit fortlaufender Nummer)

    • mit dem Kolmogorov-Smirnov-Test die Residuen auf Normalverteilung überprüfen: Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ Testvariablen/ res_1

      2. E(e)=0(kein systematischer Einfluß des Störterms auf y)


    Ols regression annahmen ii

    OLS-Regression: Annahmen II

    3. var(e)=constant(Homoskedastie der Residuen )

    4. cov(eiet)=0 (Residuen korrelieren nicht miteinander)

    5. cov(xiet)=0 (Residuen korrelieren nicht mit exogenen

    Variablen)

    • bei Verletzung der Annahmen führt die OLS-Methode zu Schätzfehlern

    • aber: Überprüfung der Variablen auf Schiefe und Umformung schließt viele Fehler aus


    Pr zision einzelner regressionskoeffizienten und t wert

    Präzision einzelner Regressionskoeffizientenund t-Wert

    • da die Residuen einer zufällig gezogenen Störvariable entsprechen, würden wir bei einer erneuten Ziehung andere Werte für die abhängige Variable erhalten, damit könnte sich auch der berechnete Regressionskoeffizient ändern

    • Wie verläßlich ist dieser also?

    Erste Ziehung

    Zweite Ziehung

    b < b

    • Überprüfung der Signifikanz der Regressionskoeffizienten anhand

      sog. t-Werte

    • zeigt an, ob eine einzelne Variable einflußreich

    • wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang

    • +/-: positiver/ negativer Zusammenhang


    Ols regression g te des modells bestimmtheitsma r

    OLS-Regression: Güte des ModellsBestimmtheitsmaß R²

    • Güte einer Schätzung läßt sich mit Hilfe des Bestimmtheitsmaßes R² bestimmen

    • Interpretation: Anteil der durch das Schätzmodell erklärten Varianz an der Gesamtvarianz der abhängigen Variablen

    • 0< R²<1  je näher an 1, desto besser das Modell; die Angabe von R² in der Regressionstabelle ist notwendig

    • das R² * 100 wird im Text als Prozent interpretiert (R²=0,65: „mit dem Modell können 65% der Varianz erklärt werden“

    • Vorteil von R2: Werte verschiedener Grundgesamtheiten können direkt miteinander verglichen werden

    • Angabe von R² ist immer notwendig!

    • adjustiertes R² bei Modellen mit mehreren Variablen

      (s. multiple Regression)


    Ols regression signifikanz

    OLS-Regression: Signifikanz

    • zur Angabe der Signifikanz

      • entweder Verwendung des „p-Werts der Signifikanz“

      • oder anhand der t-Statistik (Daumenregel: ist t-Wert betragsmäßig größer als 2, dürfte der p-Wert kleiner als 0,05 sein)

    • p-Wert: Maßzahl für Signifikanz:

      • ermöglicht Beurteilung, wie „systematisch“ (Unterschiede) eine(r) UV eine AV beeinflußt

      • bzw.: Wie wahrscheinlich ist es, daß ein Zusammenhang besteht zwischen exogenen und endogener Variablen?

      • eigentlich: Test, ob bzw. wie hoch die Fehlerwahrscheinlichkeit, daß der Koeffizient oder die Konstante ungleich Null sind, und daher allgemeinere Schlüsse aus dieser Stichprobe gezogen werden dürfen


    Ols regression signifikanz ii

    OLS-Regression: Signifikanz II

    • Signifikanzniveau/ Sicherheitsniveau:

      wenn p-Wert < 0,01 oder 0,05 oder 0,1 => signifikanter Einfluß der UV: auf 1%, 5% oder 10%-Level

      • „besser“, desto näher an Null

      • aber: Wahl des Signifikanzniveaus kann von der Meßqualität der Daten abhängig gemacht werden

      • Z.B.: 1%-Niveau: Wahrscheinlichkeit von 99%, daß signifikanter Koeffizient einflußreich ist, Irrtumswahrscheinlichkeit: 1%


    Ols regression streudiagramm

    OLS-Regression: Streudiagramm

    • nur für univariate Regression

      • rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang

      • abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße)

        erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit)

      • Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK

    • Einfügen der Regressionsgeraden

      • 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK

    • Veranschaulichung der Zusammenhänge zwischen UV & AV


    Ols regression einflu reiche ausrei er

    OLS-Regression:Einflußreiche Ausreißer

    • Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer

      => verschiedene Streudiagramme identifizieren einflußreiche Ausreißer

    • Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel)

    • Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer

    • Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten

    • Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig

    • Ausreißer raus!


    Multiple regression

    Multiple Regression

    • mehrere erklärende Variable im Schätzmodell

    • große Stärke der Regressionsanalyse: es können Einflüsse von mehreren erklärenden Variablen geschätzt werden

    • graphisch kaum vorstellbar

    • wichtig: statistische Kennzahlen und Tests, die Hinweise auf ein korrektes Schätzmodell geben, richtig auszuwerten (z.B. die bereits erwähnten p-Werte)


    Multiple regression und korrigiertes r 2

    Multiple Regression undkorrigiertes R2

    • das „adjustierte R²“ ist hier ein besseres Maß für den Erklärungsanteil des Modells

    • es ist so konstruiert, daß es sinkt, wenn viele nicht erklärungskräftige Variablen mitberücksichtigt werden

    • bei Modellen mit mehreren Variablen, nimmt der Erklärungsanteil mit der Anzahl der erklärenden Variablen zu

    • Extremfall: für jede Beobachtung gibt es eine erklärende Variable

      • R²=1

      • normales Bestimmtheitsmaß ist nicht mehr aussagekräftig

      • Anpassung um die Anzahl der erklärenden Variablen v

      • Modelle mit höherem R²adj sind vorzuziehen, auch wenn R² kleiner ist

    • wenn R²adj nach Variablenausschluß stark reduziert

      • Kolliniarität übersehen


    Multiple regressionen sensitivit tsanalyse

    Multiple Regressionen: Sensitivitätsanalyse

    • wie robust sind die Ergebnisse bei geringfügigen Änderungen in der Modellspezifikation?

    • Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und Signifikanz der Koeffizienten durch geringfügige Änderungen stark ändern

    • Aufnahme und Ausschluß von zweifelhaften Variablen und Betrachtung der Auswirkung auf die Schlüsselvariablen


    Multiple regressionen teststrategie

    Multiple Regressionen: Teststrategie

    • Vorgehensweise nach dem Grundsatz „general to specific modelling“, um Verzerrung der Regressions-koeffizienten durch unberücksichtigte Variablen zu vermeiden

    • zuerst umfassendes Modell mit allen Variablen schätzen, die auch rivalisierende Erklärungen einschließen

    • dann: insignifikante Variablen aus dem Modell ausschließen: allmählich zum „wahren“ Modell vorarbeiten (hier Multikollinearität möglich)

    • notwendig: Überprüfung, ob die Annahmen der OLS-Schätzmethode erfüllt sind


    Multikollinearit t

    Multikollinearität

    • Def.: Vorhandensein von Kollinearitäten (Abhängigkeiten) zwischen den erklärenden Variablen

    • in multiplen Regressionsmodellen treten aber fast immer (schwache) Abhängigkeiten zwischen den UV auf

    • OLS-Schätzungen bleiben unverzerrt

    • bei starker Multikollinearität kann Variabilität der Koeffizienten-

      schätzung zunehmen: d.h. schon mit einer geringfügig

      anderen Modellspezifikation ganz andere Schätzergebnisse möglich


    Multikollinearit t ii

    Multikollinearität II

    • „täuschende“ Insignifikanz bei einer oder mehreren UV möglich => Einfluß einer UV wird übersehen (bei geringen t-Werten)

    • Auslassen von Variablen mit niedrigen t-Werten kann zu einer Verzerrung der anderen Schätzer führen

    • Interpretation der Regressionskoeffizienten gestaltet sich schwieriger

    • aber: R² nicht betroffen

    • Überprüfung der Kollinearitäten hilfreich, um die Ergebnisse richtig einschätzen zu können


    Bestimmung von multikollinearit t

    Bestimmung von Multikollinearität

    • oft als erste Approximation: Überprüfung der Korrelationskoeffizienten

      => Schwankungen nach Ausschluß von Variablen die in engem Zusammenhang mit Schlüsselvariable

    • Bestimmung von Multikollinearität: z.B. mit Variance Inflation Factor (VIF):

      Werte > 10 deuten auf Multikollinearität (z.B. in SPSS im Regressionsfenster unter „Statistiken“ die Option „Multikollinearitätsdiagnose“ aktivieren)

    • Daumenregel: kein Problem, wenn R2 > R2 irgendeiner UV auf die anderen UV, oder wenn alles signifikant


    Dummy variablen

    Dummy-Variablen

    • auch Indikator-/ und Kategorienvariablen

    • qualitative Variablen, die keine Ordnung im mathematischen Sinne angeben

    • Dummies bei 2 Kategorien:

      nehmen nur Werte 0 oder 1 an, z.B.

      x=1, falls Mann & x=0, falls Frau oder

      x=1, falls zum Römischen Reich gehörig & x=0, falls sonstige

      Dummy-Variablen können auch zwischen unterschiedlichen Zeitspannen trennen: z.B. 1500-1550=0, 1551-1600=1


    Interaktionsterme

    Interaktionsterme

    • um den Einfluß einer Interaktion zwischen zwei Dummyvariablen zu schätzen, werden diese miteinander multipliziert

    • ergibt eine neue Dummyvariable: mit

      • Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien

      • Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden Ausgangskategorien

    • in SPSS: transformieren -> berechnen...

    • zugehöriger Regressionskoeffizient besagt ob eine Kombination der Charakteristika signifikant unterschiedlich ist von einer bloßen Addition der Koeffizienten der Ausgangsdummies


    Dummy variablen ii

    Dummy-Variablen II

    • Dummies bei mehr als 2 Kategorien: insbes. bei mehreren Möglichkeiten qualitativer Charakteristika: z.B.

      • Ständegesellschaft:1.Stand/ 2.Stand/ 3.Stand

      • Region: Nordosteuropa/ Zentraleuropa/Südeuropa usw.

    • mehr Dummies:

      z.B. Ständegesellschaft:

      stand1=1, falls 1.Stand/sonstige Kategorien stand1=0

      stand2=1, falls 2. Stand/sonst stand2=0

      stand3=1, falls 3. Stand/sonst stand3=0

    • Vorteil: Kategorien lassen sich unterscheiden, ohne daß Anzahl der Beobachtungen in separaten Regressionen reduziert wird => Präzision der Regressionskoeffizienten bleibt erhalten


    Homoskedastie

    Homoskedastie

    • Varianz der Residuen var(e)=konstant


    Heteroskedastie

    y

    y=a+bx

    a

    x3

    x2

    x1

    x

    Heteroskedastie

    • keine konstante Varianz der Residuen

      (graphische Überprüfung: Trichterform!)

    • Regressionskoeffizienten

      werden weiterhin unverzerrt

      geschätzt

    • auf diesen basierende

      Konfidenzintervalle sind un-

      gültig: t-Werte falsch geschätzt

    x

    • OLS-Schätzmethode nicht länger effizient


    Heteroskedastie ii

    Heteroskedastie II

    • Überprüfung durch ‚Modifizierten White-Test‘

      • vereinfacht: Residuen werden quadriert, um festzustellen, ob ‚Trichterform‘ signifikant

        e² =c+d1ŷ+d2ŷ²+Fehlerterm

        ŷ = erwartete, geschätzte Werte der abhängigen Variable

        c = Konstante

        d = Regressionskoeffizienten

      • in SPSS:

        1. Regression durchführen; dabei unstandardisierte Residuen und unstandardisierte vorhergesagte Werte speichern (im Regressionsfenster unter Speichern/ Residuen (nicht standardisiert) und vorhergesagte Werte (nicht standardisiert) ankreuzen)


    Heteroskedastie iii

    Heteroskedastie III

    2.Quadrate der vorhergesagten Werte und Residuen bilden

    (Transformieren/ Berechnen)

    3. Regression durchführen, mit AV: quadrierte Residuen; UV: vorhergesagte Werte und quadrierte vorhergesagte Werte

    => Unterscheiden sich die Regressoren gemeinsam signifikant von 0 = wenn F-Wertes signifikant = Heteroskedastie

    • verschiedene Möglichkeiten Heteroskedastie zu beheben

      • meist hilfreich: Transformation der Variablen (insbes. Logarithmierung)

      • Aufnahme von weiteren exogenen Variablen


  • Login