210 likes | 557 Views
ZPRACOVÁVÁME KVANTITATIVNÍ DATA I. Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu 18. 4. 2007. „SOUVISLOST“. Kvantitativní výzkum – testování hypotéz Jeho silnou stránkou je schopnost nám říct, jak moc se mýlíme.
E N D
ZPRACOVÁVÁMEKVANTITATIVNÍ DATA I. Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu 18. 4. 2007
„SOUVISLOST“ • Kvantitativní výzkum – testování hypotéz • Jeho silnou stránkou je schopnost nám říct, jak moc se mýlíme. • Testování hypotéz – produkce výroků o tom, jak silně proměnné souvisí (jaká je mezi nimi míra korelace – hodně, malinko).
OMYL • Představte si, že máte v rukou obálku s vyplněným dotazníkem z výzkumu na celostátním vzorku dospělého obyvatelstva. Váš úkol je odhadnout, jaké je pohlaví respondenta, jehož dotazník je v obálce (jaká je pravděpodobnost správného odhadu?). • Představte si, že z obálky vyčtete odpověď na následující otázku. Užíváte někdy rtěnku? ANO x NE Pravděpodobnost správného odhadu je mnohem vyšší. Můžeme tedy říci, že mezi proměnnými „pohlaví“ a „používání rtěnky“ existuje souvislost. • Souvislost může být definována jako přírůstek v pravděpodobnosti správného odhadu jedné proměnné, za který vděčíme naší znalosti o jiné proměnné.
Příklad souvislosti Geometrie Matematika Říká nám tato tabulka něco o souvislosti mezi známkou z G a M? Co by to znamenalo, kdyby vedla diagonála obráceně?
Příklad Proměnná X Proměnná Y • Je nějaká souvislost mezi proměnným v tabulce? • X reprezentuje volební obvody, Y politické strany. • Když známe hodnotu X, odhadneme hodnotu Y! • Statistika – srovnání nalezené distribuce pozorování do polí tabulky s takovou distribucí, jakou bychom obdrželi, kdyby byla pozorování zařazena do polí tabulky náhodně.
Redukce informací • Průměrný počet půllitrů vypitý během jednoho týdne: muži: 8 ženy: 2 • Více věříme průměru, který byl vypočítán na vzorku 500 pozorování, než průměru vypočítaném pro vzorek 5 jedinců. • Často je pro nás výhodné vyjádřit informaci o vzorku v co nejjednodušší formě (ale stačí nám průměr?) • Jaká mají data rozložení? Míry centrální tendence, míry variability, míry koncentrace. • Průměr a jiné reprezentace středních hodnot redukují informaci do jednoho údaje podle druhu dat!
Statistické operace z různých druhů měření • NOMINÁLNÍ MĚŘENÍ – četnosti, %, modus, koeficient kontingence, chí-kvadrát, atd. • ORDINÁLNÍ MĚŘENÍ – medián, některé míry variability, pořadové koeficienty korelace, atd. • INTERVALOVÁ MĚŘENÍ – aritmetický průměr, testy významnosti – t-test, F-test, směrodatná odchylka, analýza rozptylu, koeficienty korelace,atd.
TABULKA ČETNOSTÍ • Utřídění dat pomocí tzv. „čárkovací metody.“ • Při měření školní úspěšnosti získali žáci tyto známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3. • Sestavte tabulku četností podle vzorce fi = ni : n
Aritmetický průměr, modus, medián • Intervalový popis střední hodnoty • průměr r – 2,455 • Počet dětí, příjem věk, barva očí • Modus – ta hodnota, která se v daném souboru dat vyskytuje nejčastěji (má největší četnost). • Medián – prostřední hodnota z řady hodnot seřazených podle velikosti (rozděluje soubor na dvě stejné části). • 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 (stojí přesně uprostřed, odlehlá hodnota není reflektována).
Míra variability (rozptyl) • Jak dalece jsou data rozptýlena? • Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 • Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5. • Rozptyl – zda mezi průměry jsou či nejsou významné rozdíly! Příklad – terč. • Směrodatná odchylka – jak jsou hodnoty vzdáleny od průměru! • Ptáme se, co činí kolísání rozptylu. • Kvantitativní výzkum – kontroluji rozptyl hodnot (dat), izoluji proměnné. • Chceme, aby to byla nezávisle proměnná, neměla by to být náhoda. Jestliže je naše působení větší než náhoda, přijímáme alternativní hypotézu. Příklad experimentu – vliv metody.
Výpočet rozptylu • A = {1,1,1,5,5,5} B = {3,3,3,3,3,3} • Vypočítejte průměr (r) a rozptyl (s2) • 1. Od pozorované hodnoty pro každého jedince odečteme průměr. • 2. Odchylku vypočítanou pro každého jedince umocníme. • 3. Umocněné odchylky sečteme. • 4. Součet vydělíme počtem jedinců ve vzorku = rozptyl. • 5. Výsledek dělení odmocníme = směrodatná odchylka.
Směrodatná odchylka, normální rozložení -1 +1 Množství případů, kteří mají danou hodnotu proměnné 68% všech respondentů r = průměr rozptyl Hodnoty, kterých může studovaná proměnná nabývat
Nominální data – chí-kvadrát • Nejčastějším statistickým postupem na úrovni nominálního měření bývá test chí-kvadrát. • Ověřuje se zde, zda četnosti, které byly získány pozorováním se významně odlišují od teoretických četností, které odpovídají dané nulové hypotéze. • Příklad pro pochopení principu testu dobré shody. Skupina 90 žáků základní školy ve výzkumu odpovídala na otázku: Který z vyučovacích předmětů máš nejraději? A matematika B fyzika C chemie Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda mezi oblibou předmětů jsou statisticky významné rozdíly.
Princip testu dobré shody chí-kvadrát • Jestliže je výsledek statisticky významný, je velmi nepravděpodobné, že by byl způsoben náhodou. • Začínáme formulací nulové (mezi sledovanými jevy není vztah) a alternativní (existuje vztah) hypotézy. H0 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba stejné. H1 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné. Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou (statistická tabulka). x2 = ∑ (P – O)2 O
Princip testu dobré shody chí-kvadrát • Příslušnou kritickou hodnotu hledáme vždy pro určitou (zvolenou) hladinu významnosti a určitý počet stupňů volnosti. • Ve statistických tabulkách nalézáme, že kritická hodnota chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně volnosti je x20,05(2) = 5,991 • Zjišťujeme, že vypočítaná hodnota je menší, než hodnota kritická, a proto přijímáme nulovou hypotézu. • K odmítnutí nulové hypotézy je třeba, aby vypočítaná hodnota testového kritéria byla větší (nebo alespoň stejně velká) jako hodnota kritická. • Pokud jsme nuceni přijmout nulovou hypotézu, znamená to, že výsledky je možno docela dobře připsat na vrub náhody, že tedy mezi studovanými jevy není významný vztah. • Nebylo prokázáno, že mezi oblibou vyučovacích předmětů je rozdíl.
Závislost mezi jevy - nominální • Existuje závislost mezi danými dvěma pedagogickými jevy, které byly změřeny na úrovni nominálního (a vyššího) měření. • Příklad: Vzorku 400 náhodně vybraných studentů PdF byl předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda studenti byly v uplynulém studijním roce ubytováni na kolejích. Další z otázek zjišťovala, jakého průměrného prospěchu studenti v uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních výsledků dosahují. • Použijeme tzv. kontingenční tabulku (četnosti studentů, kteří odpověděli určitým způsobem na první otázku a současně určitým způsobem na druhou otázku).
Příklad bydlení na kolejích Např. číslo 93 v tabulce znamená, že 93 studentů odpovědělo, že bydleli na kolejích a současně, že měli průměrný prospěch horší než 2,1. Čísla uváděná vpravo od tabulky a pod tabulkou jsou tzv. okrajové („marginální“) četnosti, tj. součty četností v řádcích a sloupcích tabulky. Formulujeme nulovou a alternativní hypotézu. Vypočítáme očekávané četnosti pro každé pole kontingenční tabulky tak, že násobíme odpovídající marginální četnosti v tabulce a potom dělíme celkovou četností. Např. očekávanou četnost (48) vypočítáme O = 80 .240 = 48 Pro každé pole kontingenční tabulky vypočítáme hodnotu (P - O)2 : O. Testové kritérium x2 vypočítáme jako součet všech těchto hodnot, tj. 1,333 + 0,009 + 0,964 + 2,000 + 0,014 + 1,446 = 5,767. Určíme hladinu významnosti a počet stupňů volnosti podle vzorce f = (r – 1) . (s – 1) = 2 Srovnáme-li vypočítanou hodnotu testového kritéria (5,767) s kritickou hodnotou testového kritéria x20,05(2) = 5,991, zjistíme, že je menší, proto přijímáme nulovou hypotézu. 400
Závislost mezi jevy - ordinální • Koeficienty korelace např. Spearmanův (ordinální dat), Pearsonův (metrická data). • Př. závislost mezi výškou a věkem žáků. Lze říci, že výška žáků se s přibývajícím věkem zvětšuje, ale nelze tvrdit, že určitému věku odpovídá jen určitá výška žáka. • Zjišťujeme, zda existuje souvislost, nikoli která proměnná ji způsobuje. • Hodnoty koeficientu (-1 do +1).
Příklad n ∑ xi yi - ∑ xi ∑yi √ { n ∑ xi2 – (∑ xi )2 }{ n ∑ yi2 – (∑ yi )2} 8 . 372 – 50 . 52 √ (8 . 376 – 502) (8 . 380 – 522) r = 0,91
Regresní linie Perfektní pozitivní korelace, s rostoucí hodnotou X hodnota Y vzrůstá. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoli omylu, r = 1. Perfektní negativní korelace, s přirůstající hodnotou X, hodnota Y klesá, r = -1. Silná korelace. Perfektní nezávislost, znalost hodnoty X nezlepší naši schopnost odhadnout správně hodnotu Y, r = 0.