250 likes | 430 Views
Statistik: 21.10.04. Relationen zwischen qualitativen Merkmalen. Beispiel: Unfälle. Für 165 Unfälle wurden registriert: Ort des Unfalls: (innner-/außerhalb) Stadtgebiet Personenschaden: ja/nein. Unfälle: Häufigkeitsverteilung. 3D-Säulen. Gruppiertes Säulendiagramm. Kontingenztafel.
E N D
Statistik: 21.10.04 Relationen zwischen qualitativen Merkmalen
Beispiel: Unfälle Für 165 Unfälle wurden registriert: • Ort des Unfalls: (innner-/außerhalb) Stadtgebiet • Personenschaden: ja/nein PI Statistik, WS 2004/05 (4)
Unfälle: Häufigkeitsverteilung 3D-Säulen Gruppiertes Säulendiagramm PI Statistik, WS 2004/05 (4)
Kontingenztafel • Tabellierung von gemeinsamen Häufigkeiten zweier (oder mehrerer) qualitativer Merkmale, Häufigkeitsverteilung • Auch Kreuztabellen oder Kreuzklassifikation genannt Zelle Randverteilungen PI Statistik, WS 2004/05 (4)
Unfälle: Häufigkeitsverteilungen • Randverteilung nach • Personenschaden • Stadt/Land • (bedingte) Verteilung nach Personen- • schäden von Unfällen in der Stadt PI Statistik, WS 2004/05 (4)
Rand- und bedingte Verteilungen ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals Y „.“ gibt an, dass über alle möglichen Werte des Index summiert wurde ni. = jnij ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-) Merkmals X für Y =yj nj|i, j =1,…,s : bedingte Verteilung des (Spalten-) MerkmalsY für X =xi PI Statistik, WS 2004/05 (4)
Unfälle: Häufigkeitsverteilungen Gemeinsame Verteilung (bedingte) Verteilung nach Personen- schäden von (82!) Unfällen in der Stadt • Randverteilung nach • Personenschaden • Stadt/Land PI Statistik, WS 2004/05 (4)
Relative Häufigkeiten Gemeinsame relative Häufigkeiten z.B.: Anteil der (65) Unfälle ohne Personenschaden in der Stadt an allen (165) Unfällen Bedingte relative Häufigkeiten z.B.: Anteil der (65) Unfälle ohne Personenschaden (in der Stadt) an den (82) Unfällen in der Stadt PI Statistik, WS 2004/05 (4)
Unfälle: Relative Häufigkeiten • Randverteilung nach • Stadt/Land • Personenschaden Gemeinsame Verteilung PI Statistik, WS 2004/05 (4)
Unfälle: Bedingte relative Häufigkeiten • Bedingte Verteilungen für Unfälle • mit • ohne • Personenschaden Analog bedingte Verteilungen für Unfälle in Stadt und Land nach Personenschaden PI Statistik, WS 2004/05 (4)
Bedingte Verteilungen Bedingte Verteilung für Unfälle in Stadt und Land nach Personenschaden Gestapeltes Säulendiagramm PI Statistik, WS 2004/05 (4)
Beziehung zwischen Merkmalen Das Wissen über die Ausprägung eines Merkmals hilft, die Ausprägung des anderen Merkmals vorherzusagen Beispiel: Unfall passierte auf Autobahn; Personenschäden sind wahrscheinlicher als wenn der Unfall im Stadtgebiet stattgefunden hätte PI Statistik, WS 2004/05 (4)
Merkmale: Unabhängigkeit Zwei Merkmale X und Y werden als unabhängig bezeichnet, wenn die bedingten Verteilungen pi|j, i =1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen von Y übereinstimmen PI Statistik, WS 2004/05 (4)
Sind Ort und Personenschäden bei Unfällen unabhängig? Was sagen uns: • bedingte Verteilungen für Unfälle mit und ohne Personenschäden • bedingte Verteilungen für Unfälle in Stadt und Land nach Personenschaden PI Statistik, WS 2004/05 (4)
Erwartete Häufigkeiten Sind X und Y unabhängige Merkmale, so erwarten wir die Häufigkeiten Die erwarteten Häufigkeiten sind durch die Randverteilungen bestimmt PI Statistik, WS 2004/05 (4)
Unfälle: Erwartete Häufigkeiten Beobachtet: Bei Unabhängig- keit erwartet: PI Statistik, WS 2004/05 (4)
Chiquadrat-Statistik Assoziationsmaß, d.h. Maß für Abhängigkeit zwischen Merkmalen Bei Unabhängigkeit der Merkmale: T = 0 Bei Abhängigkeit: T ist wesentlich größer als 0 Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung PI Statistik, WS 2004/05 (4)
Unfälle • Chiquadrat-Statistik: T = 8.78 • p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn Unabhängigkeit der Merkmale zutrifft): 0.003 • Unabhängigkeit der Merkmale ist unplausibel PI Statistik, WS 2004/05 (4)
(r x s) - Kontingenztafel • Verallgemeinerung der 2x2-Tafel • Chiquadrat-Statistik: • Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung mit (r-1)(s-1) Freiheitsgraden PI Statistik, WS 2004/05 (4)
Homogenität • Das Merkmal Y charakterisiert die Population • Homogenität: die bedingten Verteilungen pi|j, i =1, …, r sind für alle j Populationen gleich • Zum Überprüfen der Homogenität: Chiquadrat-Statistik PI Statistik, WS 2004/05 (4)
Kontingentzkoeffizienten Von der Chiquadrat -Statistik abgeleitete Assoziationsmaße: • Pearson´scher Kontingenzkoeffizient • Cramér´scher Kontingenzkoeffizient • bei Unabhängigkeit: P = 0, C = 0 • Maximalwert: P < 1, C ≤ 0 PI Statistik, WS 2004/05 (4)
Unfälle Für die Kontingenzkoeffizienten erhalten wir PI Statistik, WS 2004/05 (4)
Beispiel: Nochmals Unfälle Für 165 Unfälle wurden registriert: • Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn • Personenschaden: ja/nein 2x3 Kontingenztafel PI Statistik, WS 2004/05 (4)
Beispiel, Forts. • Chiquadrat-Statistik: T = 18.68 • Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung mit (r-1)(s-1) = 2 Freiheitsgraden • Der p-Wert beträgt 0.000088 ! • Pearson´scher Kontingenzkoeffizient: P = 0.319 • Cramér'scher Kontingenzkoeffizient: C = 0.336 PI Statistik, WS 2004/05 (4)