Multiple regression
This presentation is the property of its rightful owner.
Sponsored Links
1 / 53

Multiple Regression PowerPoint PPT Presentation


  • 68 Views
  • Uploaded on
  • Presentation posted in: General

Multiple Regression. Gliederung Strukturgleichung Regressionskoeffizienten Der F -Test Quadratsummen Determinationskoeffizient Selektion der Prädiktoren Voraussetzungen der Multiplen Regressionsanalyse Die Multiple Regression in SPSS

Download Presentation

Multiple Regression

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Multiple regression

Multiple Regression

Gliederung

  • Strukturgleichung

  • Regressionskoeffizienten

  • Der F-Test

    • Quadratsummen

    • Determinationskoeffizient

  • Selektion der Prädiktoren

  • Voraussetzungen der Multiplen Regressionsanalyse

  • Die Multiple Regression in SPSS

  • Mediator- und Moderatoranalysen mit der Multiplen Regression

02_multiple_regression1


Ziel der multiplen korrelation

Ziel der Multiplen Korrelation

Ziel der Multiplen Regression

  • Vorhersage eines Merkmals (Kriterium)

  • durch mehrere andere Merkmale (Prädiktoren)

    Beispiel

  • Vorhersage der Klausurnote durch mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche, Anzahl der Arbeitsstunden zu Hause, Motivation, Interesse, …

  • Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren, …

02_multiple_regression2


Beispiel

Beispiel

Beispiel: Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren

Frage:Wie kann die psychische Gesundheit durch die drei Prädiktoren vorhergesagt werden?

02_multiple_regression3


Graphische darstellung der multiplen regression

Graphische Darstellung der multiplen Regression

Optimismus

β1

soziales Netz

β2

Psychische Gesundheit

β3

Stressoren

02_multiple_regression4


Die strukturgleichung

Die Strukturgleichung

Die Vorhersage erfolgt, wie bei der binären Regression, durch eine einfache Strukturgleichung:

  • Die bivariate Regression:

  • Die multivariate (multiple) Regression:

02_multiple_regression5


B gewichte

b-Gewichte

  • Ziel der Regressionsanalyse ist also die Bestimmung der Parameter der Regressionsgleichung:

    • b1, b2, b3, a

  • Interpretation der b-Gewichte:

    • Das Vorzeichen gibt die Richtung des Effekts an.

    • Der Betrag gibt an, wie stark ein Prädiktor gewichtet wird.

    • Aber: Das Gewicht häng von der Skalierung (dem Wertebereich)von x und y ab.

    • Einfacher zu interpretieren sind die standardisierten Gewichte (β).

    • Die β-Gewichte haben einen Wertebereich von -1 bis +1

    • Sie entsprechen den b-Gewichten wenn alle Variablen vor der Analysez-standardisiert werden.

    • b-Gewichte (und β) sind abhängig von der Auswahl der Prädiktoren!

02_multiple_regression6


Methode der kleinsten quadrate

Methode der kleinsten Quadrate

Bestimmung der Parameter

  • Die Parameter (b1, … , bk, a) werden so bestimmt, dass der Vorhersagefehler minimal ist:

  • Dazu wird die „Methode der kleinsten Quadrate“ verwendet:

    • Vorteile:

      • das Vorzeichen der Differenz fällt weg

      • große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

02_multiple_regression7


Methode der kleinsten quadrate1

Methode der kleinsten Quadrate

02_multiple_regression8


Methode der kleinsten quadrate2

Methode der kleinsten Quadrate

02_multiple_regression9


Signifikanztests

Signifikanztests

Signifikanztests der multiplen Regression

  • Wird ein statistisch bedeutsamer Anteil der Varianz des Kriteriums durch alle Prädiktoren gemeinsam aufgeklärt?  F-Test

  • Leisten die einzelnen Prädiktoren einen bedeutsamen Beitrag?  t-Tests für alle Prädiktoren

02_multiple_regression10


Quadratsummen

Quadratsummen

  • Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil.

  • Als Maß für die Varianz werden die sogenannten „Quadratsummen“ verwendet.

  • „Quadratsumme“ = „SumofSquares“ = SS

  • Die Quadratsumme ist ein unstandardisiertesMaß für die Varianz

  • Es gilt:

Aufgeklärte Varianz

nicht-erklärbare Varianz

02_multiple_regression11


Quadratsummen1

Quadratsummen

standardisiert:„Mean Sums ofSquares“

unstandardisiert:„Sums of Squares“

df1

df2

K:Anzahl der Prädiktoren

N:Anzahl der Probanden

02_multiple_regression12


Der f test der multiplen regression

Der F-Test der Multiplen Regression

Berechnung des empirischen F-Wertes:

  • Um dem empirische F-Wert zu interpretieren, wird dieser mit einem kritischen F-Wert verglichen.

  • Der kritische F-Wert wird aus einer Tabelle abgelesen(berücksichtigt werden df1, df2, α)

  • Femp > Fkrit bedeutet:

    • Ein bedeutsamer Teil der Kriteriumsvarianz wird aufgeklärt

    • Die Prädiktoren sind geeignet, um das Kriterium vorherzusagen

02_multiple_regression13


Multiple regression

02_multiple_regression14


Der f test der multiplen regression1

Der F-Test der Multiplen Regression

Berechnung des empirischen F-Wertes aus R²

Auflösen nach SSreg:

Auflösen nach SSres:

02_multiple_regression15


Der f test der multiplen regression2

Der F-Test der Multiplen Regression

Berechnung des empirischen F-Wertes aus R²

Eine Multiple Regression / Korrelation kann auf Signifikanz geprüft werden, wenn man R² kennt.

02_multiple_regression16


Der f test der multiplen regression3

Der F-Test der Multiplen Regression

Beispiel 1: Gewichtsverlust

  • Kann der Gewichtsverlust durch Training und Kalorienaufnahme vorhergesagt werden?

  • Berechnung der Multiplen Korrelation

02_multiple_regression17


Der f test der multiplen regression4

Der F-Test der Multiplen Regression

Der F-Test (für N=18)

Weil Femp> Fkritgilt:

  • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt

  • x1 und x2 können y vorhersagen

02_multiple_regression18


Der f test der multiplen regression5

Der F-Test der Multiplen Regression

Beispiel 2: Psychische Gesundheit

  • Kann die psychische Gesundheit Optimismus, Qualität des „sozialen Netzes“ und der Stressbelastung vorhergesagt werden?

  • Berechnung der Multiplen Korrelation

    • R = .73

    • R² = .54

    • N = 60

  • Weil Femp> Fkritgilt:

    • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt

    • x1 und x2 können y vorhersagen

02_multiple_regression19


T tests f r die parameter

t-Tests für die Parameter

t-Tests für die Parameter

  • Wenn die Regressionsanalyse insgesamt einen statistisch bedeutsamen Zusammenhang aufdeckt ist noch nichts darüber bekannt, welche Prädiktoren wichtig für die Varianzaufklärung sind.

  • Dazu werden die einzelnen b-Gewichte separat auf Signifikanz geprüft.

  • Dies geschiet mit t-Tests für alle Parameter (zur Berechnung: vgl. Bortz, S. 450)

    • Es wird jeweils die Nullhypothese geprüft, dass sich das jeweilige b-Gewicht nicht von 0 unterscheidet.

    • Bei einem nicht-Signifikanten Ergebnis kann der entsprechende Prädiktor also weggelassen werden.

    • Auch für die additive Konstante ird ein t-Test durchgeführt

  • Diese Tests gelten nur im Kontext der verendeten Prädiktoren!

02_multiple_regression20


Korrigiertes r

Korrigiertes R²

R² überschätzt Populationszusammenhang

  • Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population

  • Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren desto größer die Überschätzung von R²

  • Bei einem Nullzusammenhang in Population ergibt sichein Erwartungswert für R² von E(R²) = (k-1)/(N-1)

    • Beispiel: k=3; N=10: E(R²) = 2/9 = .22

  • Empfehlung: Verhältnis N/K von mind. 20, besser 30

  • Beispiel: k=2, N=40: E(R²) = 1/39 = .03k=2, N=60: E(R²) = 1/59 = .02

02_multiple_regression21


Korrigiertes r1

Korrigiertes R²

Lösung: Korrigiertes R²

  • Schrumpfungskorrektur nach Olkin & Pratt:

  • Beispiel: k=3; N=20; R² = .50

02_multiple_regression22


Auswahl der pr diktoren

Auswahl der Prädiktoren

  • In der Praxis stellt sich das Problem, welche und wie viele Prädiktoren für die Vorhersage ausgewählt werden sollten.

  • Dabei sollte immer ein „sparsames“ Vorgehen gewählt werden, weil eine große Prädiktormenge eine Überschätzung von R² fördert.

  • Mögliche Strategien

    • Hypothesengeleitetes Vorgehen:

      • „Einschluss“

    • Hierarchische Regressionsanalysen:

      • Vorwärts Selektion

      • Rückwärts Eliminierung

      • Schrittweises Vorgehen

02_multiple_regression23


Auswahl der pr diktoren1

Auswahl der Prädiktoren

Einschluss - Strategie

  • A priori Auswahl der aufzunehmenden Prädiktoren (aufgrund von Vorwissen oder Theorie)

  • Vorteile:

    • Hypothesengeleitetes Vorgehen

  • Nachteile:

    • Möglicherweise Aufnahme von mehr Prädiktoren als erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten)

    • Dies kann zu einer Verringerung des F-Wertes führen (wegen der größeren Anzahl der Zähler-Freiheitsgrade), und damit die Teststärke verringern.

    • Möglicherweise werden wichtige Prädiktoren „vergessen“

02_multiple_regression24


Auswahl der pr diktoren2

Auswahl der Prädiktoren

Hierarchisches Regressionsanalysen

  • Die am besten passenden Prädiktoren werden post-hoc (empirisch) bestimmt.

  • Vorteile:

    • Minimum an Prädiktoren

    • Exploratives Vorgehen möglich

  • Nachteile:

    • „Capitalizationof Chance“ wegen der Bevorzugung hoch korrelierender Prädiktoren

    • Kein hypothesengeleitetes Vorgehen

02_multiple_regression25


Auswahl der pr diktoren3

Auswahl der Prädiktoren

Vorwärts - Selektion

  • Aus einer Menge möglicher Prädiktoren wird der Prädiktor mit der höchsten Validität zuerst aufgenommen.

  • Unter den verbleibenden Prädiktoren wird immer derjenige ausgewählt, der den größten Teil der verbleibenden Varianz aufklärt (=höchste inkrementelle Validität).

  • Wenn kein Prädiktor die aufgeklärte Varianz signifikant erhöht,ist die endgültige Auswahl gefunden.

02_multiple_regression26


Auswahl der pr diktoren4

Auswahl der Prädiktoren

Rückwärts - Eliminierung

  • Zunächst werden alle Prädiktoren eingeschlossen.

  • Dann wird immer der Prädiktor weglassen, der am wenigsten zur Vorhersage beiträgt.

  • Wenn der Ausschluss eines Prädiktors zu einer signifikanten Reduktion der aufgeklärten Varianz führen würde, wird der Selektionsprozess abgebrochen.

02_multiple_regression27


Auswahl der pr diktoren5

Auswahl der Prädiktoren

Schrittweise Selektion:

  • Es wird abwechseln ein Vorwärts- und ein Rückwärtsschritt durchgeführt.

  • Dadurch werden Variablen, die im Kontext neu aufgenommener Prädiktoren keine Varianz mehr aufklären, im Nachhinein wieder entfernt.

  • Diese Schritte werden so lange wiederholt, bis keine weiteren Variablen ein- oder ausgeschlossen werden können.

02_multiple_regression28


Voraussetzungen

Voraussetzungen

Voraussetzungen der Multiplen Regression

  • Multivariate Normalverteilung aller Variablen(schwer zu überprüfen)

  • Aber: bei großen Stichproben (mindestens 20 Probanden pro Prädiktor) ist die Regressionsanalyse robust gegenüber Verletzungen dieser Annahme.

  • Weitere Einschränkung:Es werden nur lineare Zusammenhänge gefunden.

02_multiple_regression29


Die multiple regressionsanalyse in spss

Die Multiple Regressionsanalyse in SPSS

regression

/dependentpg

/method enter opt, sn, str

02_multiple_regression30


Multiple regression

SPSS

02_multiple_regression31


Multiple regression

SPSS

02_multiple_regression32


Weitere regressionsanalysen

Weitere Regressionsanalysen

Weitere Regressionsanalysen

  • Mediatoranalyse

    • Wird der Zusammenhang von X und Y durch M vermittelt?

  • Moderatoranalyse

    • Wird der Zusammenhang von X und Y durch M beeinflusst?

02_multiple_regression33


Mediatoranalyse

Mediatoranalyse

Mediatoranalyse

  • Fragestellung: „Wird der Zusammenhang von X und Y durch M vermittelt?“

  • Beispiel: „Wird der Zusammenhang von Motivation und Note durch Lernaufwand vermittelt?“

  • Es wird also eine Annahme zur Kausalität gemacht

  • Es wird untersucht, wie die Motivation wirkt.

  • Literatur:

    • Baron, R. M., & Kenny, D. A. (1986). The moderator-mediatordistinction in socialpsychologicalresearch: Conceptual, strategic, andstatisticalconsiderations. Journal ofPersonalityandSocialPsychology, 51(6), 1173-1182.

02_multiple_regression34


Mediatoranalyse1

Mediatoranalyse

Prädiktor

Kriterium

Motivation

Note

Lerndauer

Mediator

02_multiple_regression35


Mediatoranalyse2

Mediatoranalyse

Schritt 1

  • Regression von Y auf X.(Regression der Note auf die Motivation)Y = b X + a

  • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und X zeigt (b ≠ 0), kann eine Mediation vorliegen.

bY,X≠0

Motivation

Note

Lerndauer

02_multiple_regression36


Mediatoranalyse3

Mediatoranalyse

Schritt 2

  • Regression von M auf X.(Regression der Lerndauer auf die Motivation)M = b X + a

  • Nur wenn sich ein signifikanter Zusammenhang zwischen M und X zeigt (b ≠ 0), kann eine Mediation vorliegen.

Motivation

Note

bM,X≠0

Lerndauer

02_multiple_regression37


Mediatoranalyse4

Mediatoranalyse

Schritt 3

  • Regression von Y auf M.(Regression der Note auf die Lerndauer)Y = b M + a

  • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und M zeigt (b ≠ 0), kann eine Mediation vorliegen.

Motivation

Note

bY,M≠0

Lerndauer

02_multiple_regression38


Mediatoranalyse5

Mediatoranalyse

Schritt 4

  • Regression von Y auf X und M.(Regression der Note auf die Lerndauer und die Motivation)Y = b1 X + b2 M + a

  • Ergebnis:

    • bX,M = 0: „Vollständige Mediation“

    • |bX,M|> 0 ,aber kleiner als in Schritt 1: „partielle Mediation“

    • bX,Mgleich wie in Schritt 1: Keine Mediation

bX,M=0

Motivation

Note

bY,M≠0

Lerndauer

02_multiple_regression39


Mediatoranalyse in spss

Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≠0, (sig.) d.h. Die Note kann durch die Motivation vorhergesagt werden.

  • Hinweis: Das b-Gewicht ist negativ, da es bei hoher Motivation zu geringen (guten) Noten kommt.

02_multiple_regression40


Mediatoranalyse in spss1

Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≠0, (sig.) d.h. die Lerndauer kann durch die Motivation vorhergesagt werden.

02_multiple_regression41


Mediatoranalyse in spss2

Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≠0, (sig.) d.h. die Note kann durch die Lerndauer vorhergesagt werden.

02_multiple_regression42


Mediatoranalyse in spss3

Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≈0, (n.s.), d.h. die Motivation leistet über die Lerndauer hinaus keinen Beitrag mehr zur Vorhersage der Note

  • „Vollständige Mediation“

02_multiple_regression43


Moderatoranalyse

Moderatoranalyse

Moderatoranalyse

  • Fragestellung: „Wird der Zusammenhang von X und Y durch M beeinflusst?“

  • Beispiel: „Wird der Zusammenhang von Lerndauer und Note durch mathematische Intelligenz beeinflusst?“

    • Hypothese: Die gleiche Lernzeit wirkt sich bei Probanden mit hoher mathematischer Fähigkeit stärker aus als bei Probanden mit geringer mathematischer Fähigkeit.

    • Im Gegensatz zur Mediatiorvariablen (M) wird nicht angenommen, dass die Moderatorvariable durch die UV (X) beeinflusst wird.

02_multiple_regression44


Moderatoranalyse1

Moderatoranalyse

Prädiktor

Kriterium

Lerndauer

Note

math. IQ

Moderator

Die Moderatorvariable wirkt nicht direkt auf die Note, sondern auf den Zusammenhang, d.h. auf das b-Gewicht der Regression

02_multiple_regression45


Moderatoranalyse2

Moderatoranalyse

Hinweise:

  • Für jede Ausprägung von M müsste eine eigene Regres-sionsgeradegezeigt werden

  • Oft erden nur 2 Geraden gezeigt, z.B. für Probanden die eine Standardabeichung über bzw. unter dem Mittelwert liegen.

Note

math. IQ +

math. IQ -

Lerndauer

02_multiple_regression46


Moderatoranalyse3

Moderatoranalyse

Grundüberlegung:

  • Wie wird die Regressionsgerade der Regression von Y auf X durch M beeinflusst?

    • Y = b1 X + a1(1)

  • Es wird angenommen, dass b1 und a1 von M abhängen, d.h. dass beide Koeffizienten durch eine Regression auf M vorhergesagt werden können:

    • b1= b2 M + a2(2)

    • a1= b3M + a3(3)

  • Jetzt werden die Gleichungen (2) und (3) in (1) eingesetzt…

02_multiple_regression47


Moderatoranalyse4

Moderatoranalyse

  • Es wird nun eine Regression mit den drei Prädiktoren X, M und MX berechnet.

  • Das Regressionsgewicht von MX (b1‘= b2) gibt an, ob und wie stark die Steigung der ursprünglichen Regression von M abhängt!

Prädiktoren(UV‘s)

Regressions-Koeffizienten

02_multiple_regression48


Moderatoranalyse5

Moderatoranalyse

  • 1. Schritt: z-Transformation von X und M (dies ist aus mathe-matischen Gründen empfehlenswert, auf die hier nicht weiter eingegangen wird).

  • 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) ∙ z(M).

  • 3. Schritt: Berechnung einer Regression von Y auf z(X), z(Y) und P

  • Interpretation des Regressionsgewichts von P:

    • b > 0 (sig): Je größer M, desto höher (positiver) die Steigung der ursprünglichen Regressionsgeraden

    • b < 0 (sig) : Je größer M, desto geringer (negativer) die Steigung der ursprünglichen Regressionsgeraden

    • b≈0 (n.s.): Keine Moderation des Zusammenhangs von X und Y durch M.

02_multiple_regression49


Moderatoranalyse in spss

Moderatoranalyse in SPSS

*** step 1.

desc lern, mIQ

/save.

*** step 2.

compute P = Zlern*ZmIQ.

*** step 3.

reg

/dependentnote

/method enter ZlernZmIQ P.

  • Mit dem Befehl „descriptives /save“ werden Variablen z-transformiert.

  • Es entstehen neue Spalten im Datenfenster, bei denen ein „Z“ vor den ursprünglichen Variablennamen gehängt wurde.

  • Mit „compute“ wird eine neue Variable P als Produkt von Zlernund ZmIQberechnet.

02_multiple_regression50


Moderatoranalyse in spss1

Moderatoranalyse in SPSS

02_multiple_regression51


Moderatoranalyse in spss2

Moderatoranalyse in SPSS

*** step 1.

desc lern, mIQ

/save.

*** step 2.

compute P = Zlern*ZmIQ.

*** step 3.

reg

/dependentnote

/method enter ZlernZmIQ P.

  • neg. Koeffizient für lern: je mehr Lern-aufwand, desto kleiner (besser) die Note.

  • neg. Koeffizient für mIQ: je höher die math. Fertigkeiten, desto kleiner (besser) die Note

  • neg. Koeffizient für P: je höher mIQ, desto negativer (also stärker) der Zusammenhang von Lernaufwand und Note.

02_multiple_regression52


Zusammenfassung

Zusammenfassung

  • Die multiple Regression dient der Vorhersage eines Kriteriums durch mehrere Prädiktoren.

  • Mit einem F-Test wird überprüft, ob die Prädiktoren geeignet sind, das Kriterium vorherzusagen.

  • Mit t-Tests wird geprüft, ob die einzelnen Prädiktoren einen bedeutsamen Anteil leisten.

  • Es sollten nicht zu viele Prädiktoren ausgewählt werden, da sonst die Gefahr besteht, dass Zusammenhänge überschätzt werden.

  • Mediatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M vermittelt wird.

  • Moderatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M beeinflusst wird?

02_multiple_regression53


  • Login