Korrelation
This presentation is the property of its rightful owner.
Sponsored Links
1 / 35

Korrelation PowerPoint PPT Presentation


  • 51 Views
  • Uploaded on
  • Presentation posted in: General

(Benninghaus S 304-344) Korrelation: Maß für den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert) setzt Linearität des Zusammenhangs voraus ist ein Maß für symmetrische Hypothesen: es wird nicht zwischen unabhängiger und abhängiger Variable unterschieden

Download Presentation

Korrelation

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Korrelation

(Benninghaus S 304-344)

Korrelation: Maß für den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert)

setzt Linearität des Zusammenhangs voraus

ist ein Maß für symmetrische Hypothesen: es wird nicht zwischen unabhängiger und abhängiger Variable unterschieden

zur Veranschaulichung wird der Zusammenhang in einem Streudiagramm dargestellt

Korrelation


Korrelation

Lineare (a,b) und nicht lineare Zusammenhänge


Korrelation

fast perfekte positive Korrelation


Korrelation

fast perfekte negative Korrelation


Korrelation

keine Korrelation


Korrelation

positive Korrelation mittlerer Höhe


Beispiel nach gehring und weins

Es soll die Annahme überprüft werden, dass in Orten mit hohem Katholikenanteil der Anteil der CDU-Wähler besonders groß ist. Die Annahme muss bestätigt werden, wenn in Orten mit überdurchschnittlichem Katholikenanteil auch der CDU-Wähler-Anteil überdurchschnittlich ist und wenn in Orten mit unterdurchschnittlichem K-Anteil auch der Anteil der CDU-Wähler unterdurchschnittlich ist. Was über/unterdurchschnittlich ist, erkennen wir am Vergleich mit dem Mittelwert.

Beispiel nach Gehring und Weins


Beispiel

Beispiel

  • Wenn der Zusammenhang hoch ist, variieren beide Variablen gemeinsam, haben also eine hohe Kovarianz:


Beispiel1

Da die Kovarianz sich mit der Maßeinheit ändert, sind Kovarianzen nicht vergleichbar, daher standardisiert man sie, indem man durch die Standardabweichungen beider Variablen teilt (Korrelation ist Kovarianz durch Standardabweichungen)

Beispiel


Formeln f r korrelation

Formeln für Korrelation

Korrelation = Kovarianz durch Standardabweichungen,

reicht von -1 bis 1


Korrelation

Formel nach Benninghaus


Formel zum einfacheren rechnen im glossar von andre

Formel zum einfacheren Rechnen im Glossar von Andreß

SAP Summe der Abweichungsprodukte

SAQ Summe der Abweichungsquadrate


Korrelation

Praktisches Vorgehen: Arbeitstabelle


Regression

Regression: auch hier geht es um den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert)

setzt Linearität des Zusammenhangs voraus

ist geeignet für asymmetrische Hypothesen: es wird zwischen unabhängiger (x) und abhängiger Variable (y) unterschieden

man spricht von der Regression von y auf x (d.h. auf Grund von x), man will die Varianz von y durch x erklären

Regression


Wichtige begriffe

Regressionsgerade: y = a + b xWird so in die Punktwolke eingefügt, dass die Summe der quadrierten Abweichungen jedes Meßwerts von der Regressionsgerade ein Minimum erreicht

aus dieser Vorgabe ergeben sich die Werte der Regressionskoeffizienten a und b (Achsenabschnitt und Steigung)

es läßt sich ein PRE-Maß formulieren (Determinationskoeffizient R²)

Wichtige Begriffe


Korrelation

Formeln für die Regressionskoeffizienten (auch als b1 und b0 bezeichnet)


Korrelation

am obigen Beispiel


Interpretation der regressionsgeraden

b: Wenn x um eine Einheit steigt, steigt y um b Einheiten (hier 0.19).

a: Wenn x Null wäre, läge y bei a.

a ist nur sinnvoll zu interpretieren, wenn x den Wert Null annehmen kann und wenn y bei x=0 sinnvoll hochzurechnen ist. Beim Zusammenhang zwischen Alter und Einkommen macht es keinen Sinn, das Einkommen beim Alter von 0 Jahren hochzurechnen.

Interpretation der Regressionsgeraden


Korrelation

Lineare Einfachregression: Annahmen und OLS-Schätzung (1)

Fragen zur Vorlesung

Frage: Warum betrachtet man die quadrierten Abweichungen von der Regressionsgeraden und nicht die einfachen Abweichungen?

Antwort: Weil die Summe der einfachen Abweichungen für jede Regressionsgerade, die durch den Schwerpunkt (x-quer, y-quer) der Punktwolke verläuft, gleich Null ist.

Frage: Gibt es einen Punkt, durch den jede Regressionsgerade laufen muß?

Antwort: Ja, der Schwerpunkt der Punktwolke. Der Schwerpunkt entspricht dem Punkt mit den Koordinaten x=x-quer und y=y-quer.


Korrelation

Lineare Einfachregression: Annahmen und OLS-Schätzung (2)

  • Frage: Gibt es statt Probieren eine mathematische Methode, wie man die Gerade (genauer: die Parameter der Geradengleichung) bestimmen kann, die die Summe der quadrierten Abweichungen minimiert?

  • Antwort: Die Minimierung einer Funktion, hier die Summe der Abweichungsquadrate als Funktion der Parameter b0 und b1, SAQ = f(b0, b1), ist ein Problem der Differentialrechnung. Bildet man die ersten Ableitungen der Funktion SAQ = f(b0, b1) und setzt diese Null, ergeben sich die Formeln für b0 und b1 in der Formelsammlung.


Erl uterung der proportionalen fehlerreduktion pre

å

-

2

(

y

y

)

i

Erläuterung der proportionalen Fehlerreduktion (PRE)

  • Ohne Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Mittelwert y quer vorher.

  • Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten vom Mittelwert y quer (Gesamtvariation)


Erl uterung der proportionalen fehlerreduktion pre1

Erläuterung der proportionalen Fehlerreduktion (PRE)

  • Mit Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Wert vorher, der sich aus der Regressionsgeraden ergibt: y´i = a + b xi

  • Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten von den geschätzten Werten y´i (nicht erklärte Variation)


Erl uterung der proportionalen fehlerreduktion pre2

Erläuterung der proportionalen Fehlerreduktion (PRE)

  • Erklärte Variation dagegen sind die quadrierten Abweichungen der geschätzten Werte y ´i vom Mittelwert y quer


Erl uterung der proportionalen fehlerreduktion pre3

Erläuterung der proportionalen Fehlerreduktion (PRE)

  • Varianzzerlegung: Die Gesamtvariation ist die Summe der erklärten und nicht erklärten Variation. Die Gesamtvarianz ist die Summe der erklärten und der nicht erklärten Varianz:


Erl uterung der proportionalen fehlerreduktion pre4

Erläuterung der proportionalen Fehlerreduktion (PRE)

  • Fehlerreduktion (E1-E2) / E1

  • (Gesamtvariarion – nicht erklärte Variation)geteilt durch Gesamtvariation

  • identisch mit: erklärte Variation durch Gesamtvariation

  • man erhält die gleichen Werte, wenn man statt der Variation die Varianz verwendet

  • das Maß für die Fehlerreduktion heißt R² oder Determinationskoeffizient, er bezeichnet den Teil der erklärten Varianz an der Gesamtvarianz. R² ist ein symmetrisches Maß, ergibt sich also genauso bei der Regression von x auf y.


Korrelation

Zusammenhang zwischen Korrelation und Regression

  • Das Bestimmtheitsmaß R2 entspricht dem Quadrat des Korrelationskoeffizienten.

  • Korrelation ist identisch mit dem Regressionskoeffizienten b bei der Regression der z-transformierten Variable y auf die z-transformierte Variable x.

  • Interpretation r: das Maß, in dem eine Steigung einer Variablen mit der Steigung (oder dem Absinken bei negativen Korrelationen) einer anderen Variablen einhergeht.

  • Interpretation R²: der Anteil der erklärten Varianz von y durch x (damit ist aber noch keine kausale Aussage verknüpft)


  • Login