1 / 57

Multivariate Statistische Verfahren

Multivariate Statistische Verfahren. Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen. Überblick. 1. Faktorenanalyse

chin
Download Presentation

Multivariate Statistische Verfahren

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

  2. Überblick 1. Faktorenanalyse Ziel: Die Beziehungen (Kovarianzen zwischen einer größeren Anzahl gemessener Variablen durch die Wirkung einer kleineren Anzahl „latenter“, voneinander unabhängiger Variablen zu erklären. 2. Diskriminanzanalyse Ziel: Suche nach einer Gewichtung beobachtbarer Merkmale („Symptome“) zum Zweck optimaler Kategorisierung. 3. Kanonische Korrelation Ziel: Die Kanonische Korrelation ist eine Verallgemeinerung der multiplen Regression; es sollen die latenten Strukturen zweier verschiedener Variablensätze (oder des gleichen Variablensatzes in einer Vorher-Nachher-Messung) miteinander verglichen werden. 4. Korrespondenzanalyse Ziel: Die Identifikation latenter Strukturen, die die Zusammenhänge in einer Kontigenztabelle erklären („Faktorenanalyse von Häufigkeiten“) Multivariate Verfahren

  3. Faktorenanalyse – Hauptachsentransformation (PCA) als Approximation (multiple Regression) (Faktorenmodell) Multivariate Verfahren

  4. Multivariate Verfahren

  5. Beispiel: Evaluation einer Vorlesung Multivariate Verfahren

  6. Zusammenfassung der Daten in einer Matrix Fragen: Spalten Zeilen: Personen Korrelationen: Multivariate Verfahren

  7. Faktorenanalyse: Hauptkomponenten Multivariate Verfahren

  8. Faktorenanalyse: Hauptkomponenten Start- bzw. Standardlösung Rotation (Interpretation) (WS 2003/2004) Multivariate Verfahren

  9. WS 2004/2005 Multivariate Verfahren

  10. Weiteres zum Faktorenmodell: die PCA-Approximation Das Faktorenmodell: i – Person j – Test, gemessene Variable Multivariate Verfahren

  11. Approximation: die Hauptachsentransformation (Principal Component Analysis – PCA) Plausibilitätsbetrachtungen I: zwei Variable – Körperlänge (X1) und Körpergewicht (X2) Multivariate Verfahren

  12. Multivariate Verfahren

  13. Plausibilitätsbetrachtungen II: • Abweichungen des Gewichts von der Vorhersage ist „zufällig“: • Menge der Nahrungsaufnahme am Vortag • Zeitpunkt der Messung (vor oder nach dem Frühstück) • Sport am Vortag oder kein Sport • etc etc etc 2. Aber es gibt auch systematische Aspekte: unabhängig von der Körperlänge variieren • Stoffwechselintensität • Sozioökonomischer Status, formale Bildung: Fritten versus haute cuisine • etc etc Multivariate Verfahren

  14. Plausibilitätsbetrachtungen III: Es war: Der „Fehler“ wird durch die zufällige Variation der latenten Variablen L2 erklärt. (Hinweis: mehr als zwei latente Variable können hier nicht betrachtet werden, obwohl mehr als zwei solche Variable wirksam sein können. ) Multivariate Verfahren

  15. Bestimmung der Parameter I Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen. Aber die latenten Variablen müssen ja anhand der gemessenen Variablen berechnet werden! Daher: Die Antwort findet man leicht, wenn man den Marizenkalkül heranzieht! Multivariate Verfahren

  16. Bestimmung der Parameter II Multivariate Verfahren

  17. Bestimmung der Parameter III Multivariate Verfahren

  18. Bestimmung der Parameter IIIa Wechseln zu Vektoren und Matrizen ! Multivariate Verfahren

  19. Bestimmung der Parameter IV Damit ist das Problem, die latenten Variablen zu bestimmen, im Prinzip gelöst. Multivariate Verfahren

  20. Bestimmung der Parameter IV Man berechnet also die Eigenvektoren und Eigenwerte von X‘X und bestimmt damit die latenten Vektoren L. Die Transformationen von X nach L und umgekehrt von L nach X werden durch zueinander inverse Matrizen bewirkt. • Fragen: • Welche Eigenschaften hat die Lösung (Eindeutigkeit etc), und • Wie ist diese Lösung zu interpretieren? Multivariate Verfahren

  21. Diskussion der Lösung: Rotation und Reduktion Berechnung der latenten Variablen aus den Daten. Das Modell: Daten in X werden durch latente Variablen L erklärt. Multivariate Verfahren

  22. Diskussion der Lösung: Rotation und Reduktion I - Rotation Konfiguration der Personen im (Zahlen) Raum der korrelierten gemessenen Variablen. Konfiguration der Personen im Raum der unkorrelierten latenten Variablen. Rotation Man beachte: maximale Ausdehnung der Konfiguration längs der ersten Achse L1, zweitgrößte Ausdehnung bezüglich L2! Multivariate Verfahren

  23. Diskussion der Lösung: Rotation und Reduktion II - Reduktion Ist die Variation der Punkte bezüglich der L2-Achse klein, kann man annehmen, dass diese Variation nur „Fehler“ repräsentiert. Dann muß nur eine latente Variable, L1, ange-nommen werden. Dies ist die „Reduktion“. Anmerkung: L1 ist nicht notwendig identisch mit der Regressionsgraden! Multivariate Verfahren

  24. Diskussion der Lösung: formale Bedeutung der Eigenvektoren I Ellipsen. Multivariate Verfahren

  25. Diskussion der Lösung: formale Bedeutung der Eigenvektoren II Rotation von Ellipsen Nicht achsenparallel: achsenparallel: Gesucht: Transformationsmatrix T derart, dass x = Ty Aber die Vektoren y definieren eine achsenparallele Ellipse, also muß T‘MT = N eine Diagonalmatrix sein! Welche Orientierung haben die Eigenvektoren? Dann folgt aber, dass T die Matrix der Eigenvektoren von M ist, und N enthält die zugehörigen Eigenwerte! Multivariate Verfahren

  26. Diskussion der Lösung: formale Bedeutung der Eigenvektoren III Orientierung der Eigenvektoren von M: T Die Eigenvektoren der symmetrischen Matrix M haben die gleiche Orientierung wie die Hauptachsen der durch M definierten Ellipse! Daher die Rede von der ‚Hauptachsentransformation‘. Multivariate Verfahren

  27. Transformationsmatrix im Fall einer Ellipse (2-dimensionaler Fall) Kennt man den Winkel, kann man T explizit angeben. Andererseits ist der Winkel im Allgemeinen nicht bekannt. Multivariate Verfahren

  28. Diskussion der Lösung: formale Bedeutung der Eigenvektoren VI C = X‘X bzw. R = Z‘Z sind symmetrische Matrizen und definieren deshalb stets ein Ellipsoid! Die Orientierung der Eigenvektoren von C bzw. R entsprechen den Orientierungen der durch C bzw. R definierten Ellipsoide. Die Matrix der Eigenvektoren von C bzw. R definiert die Transformation (Rotation) des achsenparallelen in ein nicht achsenparalleles Ellipsoid. Multivariate Verfahren

  29. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen I Vorbetrachtung: Die Singularwertzerlegung (SVD) von X. Multivariate Verfahren

  30. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen II Die SVD: Die SVD ist ein Satz der linearen Algebra mit zentraler Bedeutung für die multivariate Statistik. Jede Matrix X kann in dieser Weise zerlegt werden. Implikationen für die Analyse psychologischer Daten? Die Spaltenvektoren von Q sind die Eigenvektoren von XX‘, d.h. sie sind orthogonal und auf die Länge 1 normiert. Die Spaltenvektoren von Q charakterisieren die Personen, die von P charakterisieren die gemessenen Variablen (wie gleich gezeigt wird). Multivariate Verfahren

  31. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIa Die Datenmatrix: Rohwerte, Abweichungen vom Mittelwert (Kovarianzen), oder z-Werte (Korrelationen) Multivariate Verfahren

  32. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIb Multivariate Verfahren

  33. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIc Multivariate Verfahren

  34. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IId Multivariate Verfahren

  35. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen III Multivariate Verfahren

  36. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IV Die Ladungen dienen als Koordinaten der Variablen im Raum der latenten Variablen, - die latenten Variablen werden über Cluster von Variablen interpretiert. Beispiel: Evaluation Multivariate Verfahren

  37. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VI Ladungen, Korrelationen, und die Schätzung der Anzahl latenter Variablen Gibt es n Variablen, werden immer n Eigenvektoren und damit n latente Variablen berechnet. Die „wahre“ Anzahl latenter Variablen wird im Allgemeinen Aber kleiner sein: s < n, und die n – s mit den kleineren Eigenwerten repräsen- tieren nur Fehler oder „Rauschen“. Man hat dann die folgende Abschätzung Für die Korrelationen: Multivariate Verfahren

  38. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VII Zur Bedeutung der Eigenwerte: Multivariate Verfahren

  39. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VIII Zur Bedeutung der Eigenwerte: Ein Eigenwert repräsentiert die Varianz der Projektionen der Personen bzw der Variablen auf die entsprechende Dimension. Multivariate Verfahren

  40. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX Eigenwerte und Anzahl der latenten Dimensionen: Multivariate Verfahren

  41. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX Personen im Raum der lat. Variablen Scree-Test: Multivariate Verfahren

  42. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X Latente Variablen – eindeutig bis auf Rotation Multivariate Verfahren

  43. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X Kriteriumsrotationen „Anschaulichkeit“ als Anker für die Interpretation. „Kompetenz“ und „Stoffmenge“ als Anker für die Interpretation. Multivariate Verfahren

  44. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(a) Kreisförmige Punktekonfiguration und Anzahl der Dimensionen Multivariate Verfahren

  45. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(aa) Wahre Beziehung zwischen den Punkten (Skalen) und dem Kreis, auf dem die Punkte liegen müssten, wäre die Lösung tatsächlich nur 2-dimensional. Die Punkte liegen alle innerhalb des Kreises, -- Ausdruck der Tatsache, dass die Skalen durch weitere latente Dimensionen definiert werden. Multivariate Verfahren

  46. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X Kriterium Varimax WS 2001/2002 Multivariate Verfahren

  47. Zusammenfassung (1): Es werden n (= viele) Variablen an den gleichen Personen bzw. Objekten gemessen; die Variablen korrelieren paarweise. Es wird angenommen, dass sie Korrelationen auf der Wirkung von r <= n „latenten Variablen‘‘ beruhen; das Ziel der Analyse ist, Art und Anzahl dieser Variablen zu bestimmen. Es wird angenommen, dass die latenten Variablen voneinander unabhängig sind, - andernfalls müsste man latente Variablen für die latenten Variablen fordern. Es wird angenommen, dass beobachtete und latente Variablen durch lineare Gleichungen aufeinander bezogen sind. Multivariate Verfahren

  48. Zusammenfassung (2): Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen. Die latenten Variablen sind unbekannt, also müssen sie aus den beobachteten Daten geschätzt (= ausgerechnet) werden. Multivariate Verfahren

  49. Zusammenfassung (3): Übergang zur Matrixnotation: Implikation der Annahme, dass die latenten Variablen unkorreliert sein sollen. Multivariate Verfahren

  50. Zusammenfassung (4): Die Lösung ergibt sich aus allgemeinen Resultaten der Vektor- und Matrixrechnung! (Singularwertzerlegung!) Multivariate Verfahren

More Related