multiple regression
Download
Skip this Video
Download Presentation
Multiple Regression

Loading in 2 Seconds...

play fullscreen
1 / 53

Multiple Regression - PowerPoint PPT Presentation


  • 97 Views
  • Uploaded on

Multiple Regression. Gliederung Strukturgleichung Regressionskoeffizienten Der F -Test Quadratsummen Determinationskoeffizient Selektion der Prädiktoren Voraussetzungen der Multiplen Regressionsanalyse Die Multiple Regression in SPSS

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Multiple Regression' - tien


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
multiple regression
Multiple Regression

Gliederung

  • Strukturgleichung
  • Regressionskoeffizienten
  • Der F-Test
    • Quadratsummen
    • Determinationskoeffizient
  • Selektion der Prädiktoren
  • Voraussetzungen der Multiplen Regressionsanalyse
  • Die Multiple Regression in SPSS
  • Mediator- und Moderatoranalysen mit der Multiplen Regression

02_multiple_regression1

ziel der multiplen korrelation
Ziel der Multiplen Korrelation

Ziel der Multiplen Regression

  • Vorhersage eines Merkmals (Kriterium)
  • durch mehrere andere Merkmale (Prädiktoren)

Beispiel

  • Vorhersage der Klausurnote durch mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche, Anzahl der Arbeitsstunden zu Hause, Motivation, Interesse, …
  • Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren, …

02_multiple_regression2

beispiel
Beispiel

Beispiel: Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren

Frage:Wie kann die psychische Gesundheit durch die drei Prädiktoren vorhergesagt werden?

02_multiple_regression3

graphische darstellung der multiplen regression
Graphische Darstellung der multiplen Regression

Optimismus

β1

soziales Netz

β2

Psychische Gesundheit

β3

Stressoren

02_multiple_regression4

die strukturgleichung
Die Strukturgleichung

Die Vorhersage erfolgt, wie bei der binären Regression, durch eine einfache Strukturgleichung:

  • Die bivariate Regression:
  • Die multivariate (multiple) Regression:

02_multiple_regression5

b gewichte
b-Gewichte
  • Ziel der Regressionsanalyse ist also die Bestimmung der Parameter der Regressionsgleichung:
    • b1, b2, b3, a
  • Interpretation der b-Gewichte:
    • Das Vorzeichen gibt die Richtung des Effekts an.
    • Der Betrag gibt an, wie stark ein Prädiktor gewichtet wird.
    • Aber: Das Gewicht häng von der Skalierung (dem Wertebereich)von x und y ab.
    • Einfacher zu interpretieren sind die standardisierten Gewichte (β).
    • Die β-Gewichte haben einen Wertebereich von -1 bis +1
    • Sie entsprechen den b-Gewichten wenn alle Variablen vor der Analysez-standardisiert werden.
    • b-Gewichte (und β) sind abhängig von der Auswahl der Prädiktoren!

02_multiple_regression6

methode der kleinsten quadrate
Methode der kleinsten Quadrate

Bestimmung der Parameter

  • Die Parameter (b1, … , bk, a) werden so bestimmt, dass der Vorhersagefehler minimal ist:
  • Dazu wird die „Methode der kleinsten Quadrate“ verwendet:
    • Vorteile:
      • das Vorzeichen der Differenz fällt weg
      • große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

02_multiple_regression7

methode der kleinsten quadrate1
Methode der kleinsten Quadrate

02_multiple_regression8

methode der kleinsten quadrate2
Methode der kleinsten Quadrate

02_multiple_regression9

signifikanztests
Signifikanztests

Signifikanztests der multiplen Regression

  • Wird ein statistisch bedeutsamer Anteil der Varianz des Kriteriums durch alle Prädiktoren gemeinsam aufgeklärt?  F-Test
  • Leisten die einzelnen Prädiktoren einen bedeutsamen Beitrag?  t-Tests für alle Prädiktoren

02_multiple_regression10

quadratsummen
Quadratsummen
  • Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil.
  • Als Maß für die Varianz werden die sogenannten „Quadratsummen“ verwendet.
  • „Quadratsumme“ = „SumofSquares“ = SS
  • Die Quadratsumme ist ein unstandardisiertesMaß für die Varianz
  • Es gilt:

Aufgeklärte Varianz

nicht-erklärbare Varianz

02_multiple_regression11

quadratsummen1
Quadratsummen

standardisiert:„Mean Sums ofSquares“

unstandardisiert:„Sums of Squares“

df1

df2

K: Anzahl der Prädiktoren

N: Anzahl der Probanden

02_multiple_regression12

der f test der multiplen regression
Der F-Test der Multiplen Regression

Berechnung des empirischen F-Wertes:

  • Um dem empirische F-Wert zu interpretieren, wird dieser mit einem kritischen F-Wert verglichen.
  • Der kritische F-Wert wird aus einer Tabelle abgelesen(berücksichtigt werden df1, df2, α)
  • Femp > Fkrit bedeutet:
    • Ein bedeutsamer Teil der Kriteriumsvarianz wird aufgeklärt
    • Die Prädiktoren sind geeignet, um das Kriterium vorherzusagen

02_multiple_regression13

der f test der multiplen regression1
Der F-Test der Multiplen Regression

Berechnung des empirischen F-Wertes aus R²

Auflösen nach SSreg:

Auflösen nach SSres:

02_multiple_regression15

der f test der multiplen regression2
Der F-Test der Multiplen Regression

Berechnung des empirischen F-Wertes aus R²

 Eine Multiple Regression / Korrelation kann auf Signifikanz geprüft werden, wenn man R² kennt.

02_multiple_regression16

der f test der multiplen regression3
Der F-Test der Multiplen Regression

Beispiel 1: Gewichtsverlust

  • Kann der Gewichtsverlust durch Training und Kalorienaufnahme vorhergesagt werden?
  • Berechnung der Multiplen Korrelation

02_multiple_regression17

der f test der multiplen regression4
Der F-Test der Multiplen Regression

Der F-Test (für N=18)

Weil Femp> Fkritgilt:

  • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt
  • x1 und x2 können y vorhersagen

02_multiple_regression18

der f test der multiplen regression5
Der F-Test der Multiplen Regression

Beispiel 2: Psychische Gesundheit

  • Kann die psychische Gesundheit Optimismus, Qualität des „sozialen Netzes“ und der Stressbelastung vorhergesagt werden?
  • Berechnung der Multiplen Korrelation
    • R = .73
    • R² = .54
    • N = 60
  • Weil Femp> Fkritgilt:
    • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt
    • x1 und x2 können y vorhersagen

02_multiple_regression19

t tests f r die parameter
t-Tests für die Parameter

t-Tests für die Parameter

  • Wenn die Regressionsanalyse insgesamt einen statistisch bedeutsamen Zusammenhang aufdeckt ist noch nichts darüber bekannt, welche Prädiktoren wichtig für die Varianzaufklärung sind.
  • Dazu werden die einzelnen b-Gewichte separat auf Signifikanz geprüft.
  • Dies geschiet mit t-Tests für alle Parameter (zur Berechnung: vgl. Bortz, S. 450)
    • Es wird jeweils die Nullhypothese geprüft, dass sich das jeweilige b-Gewicht nicht von 0 unterscheidet.
    • Bei einem nicht-Signifikanten Ergebnis kann der entsprechende Prädiktor also weggelassen werden.
    • Auch für die additive Konstante ird ein t-Test durchgeführt
  • Diese Tests gelten nur im Kontext der verendeten Prädiktoren!

02_multiple_regression20

korrigiertes r
Korrigiertes R²

R² überschätzt Populationszusammenhang

  • Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population
  • Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren desto größer die Überschätzung von R²
  • Bei einem Nullzusammenhang in Population ergibt sichein Erwartungswert für R² von E(R²) = (k-1)/(N-1)
    • Beispiel: k=3; N=10: E(R²) = 2/9 = .22
  • Empfehlung: Verhältnis N/K von mind. 20, besser 30
  • Beispiel: k=2, N=40: E(R²) = 1/39 = .03k=2, N=60: E(R²) = 1/59 = .02

02_multiple_regression21

korrigiertes r1
Korrigiertes R²

Lösung: Korrigiertes R²

  • Schrumpfungskorrektur nach Olkin & Pratt:
  • Beispiel: k=3; N=20; R² = .50

02_multiple_regression22

auswahl der pr diktoren
Auswahl der Prädiktoren
  • In der Praxis stellt sich das Problem, welche und wie viele Prädiktoren für die Vorhersage ausgewählt werden sollten.
  • Dabei sollte immer ein „sparsames“ Vorgehen gewählt werden, weil eine große Prädiktormenge eine Überschätzung von R² fördert.
  • Mögliche Strategien
    • Hypothesengeleitetes Vorgehen:
      • „Einschluss“
    • Hierarchische Regressionsanalysen:
      • Vorwärts Selektion
      • Rückwärts Eliminierung
      • Schrittweises Vorgehen

02_multiple_regression23

auswahl der pr diktoren1
Auswahl der Prädiktoren

Einschluss - Strategie

  • A priori Auswahl der aufzunehmenden Prädiktoren (aufgrund von Vorwissen oder Theorie)
  • Vorteile:
    • Hypothesengeleitetes Vorgehen
  • Nachteile:
    • Möglicherweise Aufnahme von mehr Prädiktoren als erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten)
    • Dies kann zu einer Verringerung des F-Wertes führen (wegen der größeren Anzahl der Zähler-Freiheitsgrade), und damit die Teststärke verringern.
    • Möglicherweise werden wichtige Prädiktoren „vergessen“

02_multiple_regression24

auswahl der pr diktoren2
Auswahl der Prädiktoren

Hierarchisches Regressionsanalysen

  • Die am besten passenden Prädiktoren werden post-hoc (empirisch) bestimmt.
  • Vorteile:
    • Minimum an Prädiktoren
    • Exploratives Vorgehen möglich
  • Nachteile:
    • „Capitalizationof Chance“ wegen der Bevorzugung hoch korrelierender Prädiktoren
    • Kein hypothesengeleitetes Vorgehen

02_multiple_regression25

auswahl der pr diktoren3
Auswahl der Prädiktoren

Vorwärts - Selektion

  • Aus einer Menge möglicher Prädiktoren wird der Prädiktor mit der höchsten Validität zuerst aufgenommen.
  • Unter den verbleibenden Prädiktoren wird immer derjenige ausgewählt, der den größten Teil der verbleibenden Varianz aufklärt (=höchste inkrementelle Validität).
  • Wenn kein Prädiktor die aufgeklärte Varianz signifikant erhöht,ist die endgültige Auswahl gefunden.

02_multiple_regression26

auswahl der pr diktoren4
Auswahl der Prädiktoren

Rückwärts - Eliminierung

  • Zunächst werden alle Prädiktoren eingeschlossen.
  • Dann wird immer der Prädiktor weglassen, der am wenigsten zur Vorhersage beiträgt.
  • Wenn der Ausschluss eines Prädiktors zu einer signifikanten Reduktion der aufgeklärten Varianz führen würde, wird der Selektionsprozess abgebrochen.

02_multiple_regression27

auswahl der pr diktoren5
Auswahl der Prädiktoren

Schrittweise Selektion:

  • Es wird abwechseln ein Vorwärts- und ein Rückwärtsschritt durchgeführt.
  • Dadurch werden Variablen, die im Kontext neu aufgenommener Prädiktoren keine Varianz mehr aufklären, im Nachhinein wieder entfernt.
  • Diese Schritte werden so lange wiederholt, bis keine weiteren Variablen ein- oder ausgeschlossen werden können.

02_multiple_regression28

voraussetzungen
Voraussetzungen

Voraussetzungen der Multiplen Regression

  • Multivariate Normalverteilung aller Variablen(schwer zu überprüfen)
  • Aber: bei großen Stichproben (mindestens 20 Probanden pro Prädiktor) ist die Regressionsanalyse robust gegenüber Verletzungen dieser Annahme.
  • Weitere Einschränkung:Es werden nur lineare Zusammenhänge gefunden.

02_multiple_regression29

die multiple regressionsanalyse in spss
Die Multiple Regressionsanalyse in SPSS

regression

/dependentpg

/method enter opt, sn, str

02_multiple_regression30

slide31
SPSS

02_multiple_regression31

slide32
SPSS

02_multiple_regression32

weitere regressionsanalysen
Weitere Regressionsanalysen

Weitere Regressionsanalysen

  • Mediatoranalyse
    • Wird der Zusammenhang von X und Y durch M vermittelt?
  • Moderatoranalyse
    • Wird der Zusammenhang von X und Y durch M beeinflusst?

02_multiple_regression33

mediatoranalyse
Mediatoranalyse

Mediatoranalyse

  • Fragestellung: „Wird der Zusammenhang von X und Y durch M vermittelt?“
  • Beispiel: „Wird der Zusammenhang von Motivation und Note durch Lernaufwand vermittelt?“
  • Es wird also eine Annahme zur Kausalität gemacht
  • Es wird untersucht, wie die Motivation wirkt.
  • Literatur:
    • Baron, R. M., & Kenny, D. A. (1986). The moderator-mediatordistinction in socialpsychologicalresearch: Conceptual, strategic, andstatisticalconsiderations. Journal ofPersonalityandSocialPsychology, 51(6), 1173-1182.

02_multiple_regression34

mediatoranalyse1
Mediatoranalyse

Prädiktor

Kriterium

Motivation

Note

Lerndauer

Mediator

02_multiple_regression35

mediatoranalyse2
Mediatoranalyse

Schritt 1

  • Regression von Y auf X.(Regression der Note auf die Motivation)Y = b X + a
  • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und X zeigt (b ≠ 0), kann eine Mediation vorliegen.

bY,X≠0

Motivation

Note

Lerndauer

02_multiple_regression36

mediatoranalyse3
Mediatoranalyse

Schritt 2

  • Regression von M auf X.(Regression der Lerndauer auf die Motivation) M = b X + a
  • Nur wenn sich ein signifikanter Zusammenhang zwischen M und X zeigt (b ≠ 0), kann eine Mediation vorliegen.

Motivation

Note

bM,X≠0

Lerndauer

02_multiple_regression37

mediatoranalyse4
Mediatoranalyse

Schritt 3

  • Regression von Y auf M.(Regression der Note auf die Lerndauer) Y = b M + a
  • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und M zeigt (b ≠ 0), kann eine Mediation vorliegen.

Motivation

Note

bY,M≠0

Lerndauer

02_multiple_regression38

mediatoranalyse5
Mediatoranalyse

Schritt 4

  • Regression von Y auf X und M.(Regression der Note auf die Lerndauer und die Motivation) Y = b1 X + b2 M + a
  • Ergebnis:
    • bX,M = 0: „Vollständige Mediation“
    • |bX,M|> 0 ,aber kleiner als in Schritt 1: „partielle Mediation“
    • bX,Mgleich wie in Schritt 1: Keine Mediation

bX,M=0

Motivation

Note

bY,M≠0

Lerndauer

02_multiple_regression39

mediatoranalyse in spss
Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≠0, (sig.) d.h. Die Note kann durch die Motivation vorhergesagt werden.
  • Hinweis: Das b-Gewicht ist negativ, da es bei hoher Motivation zu geringen (guten) Noten kommt.

02_multiple_regression40

mediatoranalyse in spss1
Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≠0, (sig.) d.h. die Lerndauer kann durch die Motivation vorhergesagt werden.

02_multiple_regression41

mediatoranalyse in spss2
Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≠0, (sig.) d.h. die Note kann durch die Lerndauer vorhergesagt werden.

02_multiple_regression42

mediatoranalyse in spss3
Mediatoranalyse in SPSS

*** step 1.

reg

/dependentnote

/method enter mot.

*** step 2.

reg

/dependent lern

/method enter mot.

*** step 3.

reg

/dependentnote

/method enter lern.

*** step 4.

reg

/dependentnote

/method enter mot lern.

  • b≈0, (n.s.), d.h. die Motivation leistet über die Lerndauer hinaus keinen Beitrag mehr zur Vorhersage der Note
  • „Vollständige Mediation“

02_multiple_regression43

moderatoranalyse
Moderatoranalyse

Moderatoranalyse

  • Fragestellung: „Wird der Zusammenhang von X und Y durch M beeinflusst?“
  • Beispiel: „Wird der Zusammenhang von Lerndauer und Note durch mathematische Intelligenz beeinflusst?“
    • Hypothese: Die gleiche Lernzeit wirkt sich bei Probanden mit hoher mathematischer Fähigkeit stärker aus als bei Probanden mit geringer mathematischer Fähigkeit.
    • Im Gegensatz zur Mediatiorvariablen (M) wird nicht angenommen, dass die Moderatorvariable durch die UV (X) beeinflusst wird.

02_multiple_regression44

moderatoranalyse1
Moderatoranalyse

Prädiktor

Kriterium

Lerndauer

Note

math. IQ

Moderator

Die Moderatorvariable wirkt nicht direkt auf die Note, sondern auf den Zusammenhang, d.h. auf das b-Gewicht der Regression

02_multiple_regression45

moderatoranalyse2
Moderatoranalyse

Hinweise:

  • Für jede Ausprägung von M müsste eine eigene Regres-sionsgeradegezeigt werden
  • Oft erden nur 2 Geraden gezeigt, z.B. für Probanden die eine Standardabeichung über bzw. unter dem Mittelwert liegen.

Note

math. IQ +

math. IQ -

Lerndauer

02_multiple_regression46

moderatoranalyse3
Moderatoranalyse

Grundüberlegung:

  • Wie wird die Regressionsgerade der Regression von Y auf X durch M beeinflusst?
    • Y = b1 X + a1 (1)
  • Es wird angenommen, dass b1 und a1 von M abhängen, d.h. dass beide Koeffizienten durch eine Regression auf M vorhergesagt werden können:
    • b1= b2 M + a2(2)
    • a1= b3M + a3 (3)
  • Jetzt werden die Gleichungen (2) und (3) in (1) eingesetzt…

02_multiple_regression47

moderatoranalyse4
Moderatoranalyse
  • Es wird nun eine Regression mit den drei Prädiktoren X, M und MX berechnet.
  • Das Regressionsgewicht von MX (b1‘= b2) gibt an, ob und wie stark die Steigung der ursprünglichen Regression von M abhängt!

Prädiktoren(UV‘s)

Regressions-Koeffizienten

02_multiple_regression48

moderatoranalyse5
Moderatoranalyse
  • 1. Schritt: z-Transformation von X und M (dies ist aus mathe-matischen Gründen empfehlenswert, auf die hier nicht weiter eingegangen wird).
  • 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) ∙ z(M).
  • 3. Schritt: Berechnung einer Regression von Y auf z(X), z(Y) und P
  • Interpretation des Regressionsgewichts von P:
    • b > 0 (sig): Je größer M, desto höher (positiver) die Steigung der ursprünglichen Regressionsgeraden
    • b < 0 (sig) : Je größer M, desto geringer (negativer) die Steigung der ursprünglichen Regressionsgeraden
    • b≈0 (n.s.): Keine Moderation des Zusammenhangs von X und Y durch M.

02_multiple_regression49

moderatoranalyse in spss
Moderatoranalyse in SPSS

*** step 1.

desc lern, mIQ

/save.

*** step 2.

compute P = Zlern*ZmIQ.

*** step 3.

reg

/dependentnote

/method enter ZlernZmIQ P.

  • Mit dem Befehl „descriptives /save“ werden Variablen z-transformiert.
  • Es entstehen neue Spalten im Datenfenster, bei denen ein „Z“ vor den ursprünglichen Variablennamen gehängt wurde.
  • Mit „compute“ wird eine neue Variable P als Produkt von Zlernund ZmIQberechnet.

02_multiple_regression50

moderatoranalyse in spss1
Moderatoranalyse in SPSS

02_multiple_regression51

moderatoranalyse in spss2
Moderatoranalyse in SPSS

*** step 1.

desc lern, mIQ

/save.

*** step 2.

compute P = Zlern*ZmIQ.

*** step 3.

reg

/dependentnote

/method enter ZlernZmIQ P.

  • neg. Koeffizient für lern: je mehr Lern-aufwand, desto kleiner (besser) die Note.
  • neg. Koeffizient für mIQ: je höher die math. Fertigkeiten, desto kleiner (besser) die Note
  • neg. Koeffizient für P: je höher mIQ, desto negativer (also stärker) der Zusammenhang von Lernaufwand und Note.

02_multiple_regression52

zusammenfassung
Zusammenfassung
  • Die multiple Regression dient der Vorhersage eines Kriteriums durch mehrere Prädiktoren.
  • Mit einem F-Test wird überprüft, ob die Prädiktoren geeignet sind, das Kriterium vorherzusagen.
  • Mit t-Tests wird geprüft, ob die einzelnen Prädiktoren einen bedeutsamen Anteil leisten.
  • Es sollten nicht zu viele Prädiktoren ausgewählt werden, da sonst die Gefahr besteht, dass Zusammenhänge überschätzt werden.
  • Mediatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M vermittelt wird.
  • Moderatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M beeinflusst wird?

02_multiple_regression 53

ad