1 / 31

Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

UK FHS Historická sociologie (LS 2012). Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 22.5. 2012. Asociace mezi znaky. Asociace (korelace) a kauzalita.

trilby
Download Presentation

Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UK FHS Historická sociologie (LS 2012) Analýza kvantitativních dat II.Korelace a asociace:vztahy mezi kardinálními/ ordinálními znaky Jiří Šafrjiri.safr(zavináč)seznam.cz posledníaktualizace 22.5. 2012

  2. Asociace mezi znaky

  3. Asociace (korelace) a kauzalita • Asociace (korelace) neznamená automaticky kauzální vztah • Podmínky kauzality (připomenutí): • Naměřená korelace • Časová souslednost (k A došlo před B) • Vyloučení vlivu třetí proměnné • Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovali naší výzkumnou otázku resp. pracovní hypotézu.

  4. Základní možnosti pro vztah dvou proměnných A x B (opakování) • Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence • Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B) • Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální

  5. Korelace: kardinální (spojité) znaky

  6. Korelace • Korelační koeficient – Pearsonůvpro číselné znaky (s normálním rozdělením) 1 = přímá závislost 0 = žádná statisticky zjistitelná lineární závislost → i při nulovém korelačním koeficientu na sobě veličiny mohou záviset ! −1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků,

  7. Korelace: test hodnoty v populaci • Je třeba pomocí T-testu otestovat, zda je korelace přítomná i v populaci (základním souboru). • Testujeme, zda se jeho hodnota ve výběru lišší od populační hodnoty. • H0: korelace v základním souboru je nulová (je způsobená náhodou) r = 0 • Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je-li tabulkové t0,05 > t pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je v populaci nulová.

  8. Korelace a vysvětlená variance • Umocněním r – korelačního koeficientu dostanemeR2 (Rsq) – koeficient determinace. • Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y

  9. Korelace: věk a příjem; Scatterplot

  10. Parciální korelaceaneb výprava do tří (a více) rozměrného prostoru Intervalové (a ordinální) znaky

  11. Korelace: parciální korelace • kontrolovaný vliv 3 proměnné Parciální korelace pro X,Y/U s kontrolou vlivu U(vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho) Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)

  12. Parciální korelace v SPSS Kontrolní proměnná(é) PARTIAL CORRprijem vek BY s3 /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE. Lze zařadit i více kontrolních proměnných. V SPSS pouze pro Pearsonův korelační koeficient(tj. kardinální znaky). Neparametrické korelace nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku. [Data: ISSP 2007]

  13. Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….). y = a + bxy = hodnota závislé, a = konstanta (typická závislé při nejnižší hodnotě nezávislé, b = regresní koeficient → „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné Na rozdíl od korelace předpokládáme směr působení: nezávislá → závislá Mnohonásobná regrese uvažuje vliv více nezávislých proměnných souběžně

  14. Více k regresní analýze viz prezentaci Regresní analýza(AKD2_regrese.ppt)

  15. Ordinální znaky: pořadové korelace

  16. Pořadová korelace: pro ordinální proměnné • Spermanův korelační koeficient Rho • +1 = úplná shoda pořadí jednotek podle obou znaků • Kendallovo Tau • ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy. Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].

  17. Pořadové korelace (pro ordinální znaky) • Spearmanův koeficient pořadové korelace (ρ nebo rs). Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla. • Na některé druhy závislostí ovšem není citlivý, proto je lepší použít • Kendallův pořadový korelační koeficient (Kendaulovo Tau) je neparametrický test nezávislosti • vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou. • Tau-b→ pro větší počet výskytu nerozhodnutých párů • pokud znaky mají odlišný počet unikátních hodnot (kontingenční tabulka m×n) → Tau-cnebo • Goodman-Kruskalův gama koeficient → pro vysoký počet výskytu nerozhodnutých párů Gama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.

  18. Pořadová korelace: př. Soc. Distance

  19. úlohy • [data ISSP 2007] • Jak souvisí příjem s věkem? • Souvisí pocit štěstí se vzděláním? [data Rodiče a výchova 2010] Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem).

  20. Nominální a kardinální znak • koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální • EtaSq nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům. • Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné! • V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB • EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu)

  21. Asociace nominálních znaků Podrobněji o kontingenční tabulce viz AKD2_kontg_tab

  22. Asociace nominálních znaků: Kontingenční koeficient (CC) • Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr. • Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky. V menu SPSS: Analyze, Descriptive Statistics, Crosstabs; vložitRow a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V

  23. Interpretace korelačních koeficientů • Korelace pod 0,1 je triviální, • 0,1–0,3 malá, • 0,3–0,5 střední • nad 0,5 velká. • Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf. • Pomůže nám odhalit odlehlá pozorování (outliers) a nelineární vztahy • Pozor zejména při malém počtu případů ve výběru a tedy hlavně u agregovaných dat (viz dále Simpsonův paradox)

  24. Pozor korelační koeficient ukazuje jen na míru souvislosti, ale neříká nic o kauzalitě – směru působení mez dvěma znaky.

  25. A ZNOVU…Asociace (korelace) a kauzalita • Asociace (korelace) neznamená automaticky kauzální vztah • Podmínky kauzality (připomenutí podruhé): • Naměřená korelace • Časová souslednost (k A došlo před B) • Vyloučení vlivu třetí proměnné→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt)) • Směr působení nám může pomoci určit silná teorie

  26. Posouzení vlivu třetí proměnné • Vyloučení vlivu třetí proměnné → eliminace (kontrola společného působení na závislou i nezávislou proměnnou): • pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy; • pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru(viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))

  27. Na co si dát pozor Vícerozměrná analýza

  28. Odlehlá pozorování (outliers) R = 0,88 R = 0,08 Téměř všech rozptyl byl vnesen pouze jedním pozorováním.Outliers mohou významně ovlivnit vztah dvou (a více) znaků! Vždy nejprve zjistit odlehlá pozorování → Scatterplot

  29. Simpsonův / reversal paradox – špatná inference z agregovaných dat • Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné. • Hrozí při agregaci dat. V agregovaných datech (černá čára) je negativní souvislost V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend

  30. Konfigurace v datech na základě podskupin [Disman 1993: 210-211]

  31. Neparametrické testy (Non-parametric Tests) • Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr • Neparametrické metody: - nezávislé na rozdělní - méně citlivé na odchylky extrémních hodnot • i pro výběry velmi malého rozsahu • vhodné pro nominální i ordinální znaky • Ale dochází častěji k chybnému nezamítnutí nepravdivé H0. • Chí-kvadrát testy,

More Related