1 / 19

Jednorozmerný a dvojrozmerný c h í-kvadrát test ( krížové tabuľky )

Jednorozmerný a dvojrozmerný c h í-kvadrát test ( krížové tabuľky ). Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav normálnej a patologickej fyziológie SAV. Frekvenčná tabuľka.

abe
Download Presentation

Jednorozmerný a dvojrozmerný c h í-kvadrát test ( krížové tabuľky )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jednorozmerný a dvojrozmerný chí-kvadrát test (krížové tabuľky) Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav normálnej a patologickej fyziológie SAV

  2. Frekvenčná tabuľka • Jednoduchá (frekvenčná) tabuľka zodpovedá jednostupňovému triedeniu. Obsahuje triedne početnosti podľa kategórií (tried) jednej premennej. Zostrojenie frekvenčných tabuliek z údajov sa nazýva tabelácia. • Prezentácia: koláčový graf, stĺpcový graf, kumulatívny stĺpcový graf

  3. Kedy použiť jednorozmerný chí2 test dobrej zhody? “Goodness of fit” • Keď je premenná kategorická (nominálnaalebo ordinálna) • Testuje jeden typ otázky (napr. otázka na pacienta): • Čo považujete za najväčší nedostatok v zdravotnej starostlivosti? • (Pearsonov)chí2 test dobrej zhody testuje nulovú štatistickú hypotézu, ktorá tvrdí, že aktuálne (pozorované) početnosti v jednotlivých kategóriách (presnejšie hodnotách/úrovniach kategorickej premennej)sa rovnajú očakávaným (teoretickým) početnostiam (univariačná analýza toho, či distribúcia frekvencií “fituje” predpokladané populačné proporcie).

  4. Štatistickáotázka • Predpokladáme, že v odpovediach budú v jednotlivých stanovených triedach (hodnotách kategórie) rozdiely • 43% odpovedí “kvalita” • 34% odpovedí “dostupnosť” • 23% odpovedí “neviem” • Ale sú tieto rozdiely štatisticky signifikantné? Inýmislovami, nakoľko “veľký” je veľký rozdiel medzi týmito percentami? • Výskumná otázka na vzorke 105 pacientov: Sú jednotlivé typy odpovedí pacientmi ROVNAKO PREFEROVANÉ? (excelovský príklad, list 1). Poznámka: triedy odpovedí sú pre naše potreby zjednodušené – v takejto podobe nevyhovujú kritériám pre „closed-ended question“

  5. Testovanie hypotézy • Ho: p1 = p2 = p3 • to znamená, že ak sú preferencie rovnaké, očakávané hodnoty by mali byť 35/105 resp. 33,3% pre každú úroveň kategorickej premennej (typ odpovede) • Ha: p1 = p2 = p3 Uvažujeme chybu typu I. druhu maximálne vo výške 5%(alfa = 0,05)

  6. Podmienky použitia testu dobrej zhody • Analýza nízkych očakávaných početností je kontroverzná (Koehler a Larnz 1980).Použitie aproximačného chí2testu vyžaduje splnenie všetkých (!) nasledujúcich podmienok: • Celkový počet pozorovaných početností n ≥ 10 • Počet tried/úrovní kategóriec ≥ 3 • Všetky očakávané hodnoty Eij ≥ 0,25

  7. Excel pre test dobrej zhody • Pripraviť si frekvenčnú tabuľku aktuálnych a očakávaných početností • Bunka (fx) > kategória štatistické (funkcie) > CHITEST • Zadať stĺpec aktuálnych počtov a stĺpec očakávaných počtov • Existuje rozdiel medzi tým, koľko pacientov skutočne preferovalo daný typ odpovede (úroveň kategorickej premennej) a tým, koľko sme očakávali, pri rovnakej preferencii (35)? • Je tento rozdiel dosť veľký na to, aby sme urobili štatistický záver (inference), alebo mohol byť tento rozdiel spôsobený náhodnou chybou výberu (random sampling error)? • Testováštatistika: chí2 = 6,34, df = 3(triedy)-1 =2 • Výstup je hodnota pravdepodobnosti P=0,042

  8. Záver príkladu • Pre danú hodnotu chí2 = 6,34,a df = 2, pri alfa = 0,05, by mala byť pravdepodobnosť získania takejto hodnoty chí2rovná alebo menšia než 0,05 na to, aby sme to považovali za významný rozdiel (significant difference). • p = 0,042 ....aký je záver? • Zamietame nulovú hypotézu, že pozorované rozdiely v preferenciách mohli byť spôsobené náhodnou chybou a prijímame alternatívnu hypotézu, že medzi preferenciami (triedy kategórie=typ odpovede) je signifikantný rozdiel. Preferencie sú rôzne.

  9. Kedy použiť dvojrozmerný chí2 test nezávislosti? “The r (rows) by c (columns) chi-square tests of independence of the categories in a table” • Keď analyzujeme v skutočnosti dve premenné, skupinovú (grupujúcu) premennú a akúkoľvek premennú, v ktorej chceme dané podskupiny porovnať (bivariačná analýza) • Keď obe premenné sú kategorické, t.j., nominálnealebo ordinálne. • Keď testujeme, či existuje medzi týmito premennými vzťah (sú asociované) alebo nie (sú nezávislé). (Pearsonov) chí2 test nezávislosti predstavuje rozšírenie chí2 testu dobrej zhody na analýzu kontingenčnej tabuľky. Príklad: Lekár má podozrenie na neštandardné rozdelenie krvných skupín u pacientov, ktorí majú pooperačné komplikácie. Percentuálny výskyt krvných skupín u nás: krvná skupina A: 43 %, 0: 42 %, B: 11 %, AB: 4 %. Porovnaním populačného rozdelenia krvných skupín s rozdelením u náhodnej vzorky pacientov možno podozrenie lekára potvrdiť (excelovský príklad, list 2).

  10. Podmienky použitia testu nezávislosti • Náhodný výber • Každé pozorovanie je klasifikované do jednej bunky tabuľky r x c (resp. 2 x 2) • Analýza nízkych očakávaných početností je kontroverzná.Použitie aproximačného chí2testu pre tabuľku2 x 2 vyžaduje splnenienasledujúcich podmienok: • Celkový počet pozorovaných početností n ≥ 20 • Všetky očakávané hodnoty Eij ≥ 5 Nulová hypotéza je nezávislosť riadkových a stĺpcových kategórií (tried).

  11. Ďalšie chí2 testy • Pre párové proporcie použijeme McNemarov chí2 test • Mantel-Haenszelov test pre stratifikované 2 x 2 tabuľky pri fixných efektoch • Zovšeobecnený (generalised) Cochran-Mantel-Haenszelov test – pre stratifikované r x c tabuľky

  12. Exaktné testy • Binomické rozdelenievyužívame pre testovanie pravdepodobnosti, že„r“ pozorovaní z celkového počtu „n“ (r/n)prevýši očakávanú hodnotu • Pre 0,5 (t.j. šanca 50:50) použijeme znamienkový test (Exact sign test). Nulová hypotéza znie: pozorovaná proporcia nie je odlišná od 0,5. • Pre očakávanú hodnotu inú než 0,5 použijeme binomický test – inak tiež test jednej proporcie(The single proportion test (binomial test)). • Fisherov exaktný test použijeme, ak v tabuľke2 x 2: keď je ktorákoľvek očakávaná hodnota menšia ako 1 alebo 20% všetkých očakávaných hodnôt je menších alebo rovných 5. Podmienka: riadkové a stĺpcové súčty sú fixné (často kontroverzné) • Zovšeobecnený Fisherov test (The generalised Fisher exact test - The Fisher-Freeman-Halton test) použijeme pre tabuľkur x c. • Pre párované proporcie použijeme Liddellov test

  13. Príklad pre chí2 test nezávislosti • Výskumná otázka: Sú preferencie odpovedí pacientov rovnaké u mužov aj u žien? Inými slovami, sú preferencie závislé na pohlaví? • Otázka v dotazníku: Čo považujete za najväčší nedostatok v zdravotnej starostlivosti? Kvalitu, dostupnosť alebo je odpoveď „neviem“? (zvoľte jednu odpoveď) Druhá kategória je Pohlavie: MužŽena • Vzorka: 105 náhodne vybraných pacientov po hospitalizácii v zvolenom zdravotníckom zariadení

  14. Excel pre test nezávislosti • Pripraviť si frekvenčnú tabuľku aktuálnych početností typov odpovedípre obe pohlavia. • Zistiť súčty pre riadky a stĺpce. • Dopočítať očakávané početnosti pre obe pohlavia podľa vzorca (excelovský príklad, list 3). • kde: Aij = aktuálna početnost v i-tom riadku a j-tom stĺpci Eij = očakávaná početnost v i-tom riadku a j-tom stĺpci r = počet riadkov c = počet stĺpcov Yatesova korekcia na spojitosť: odpočíta 0,5 z absolútnej hodnoty každej dvojice v čitateli ( ‌‌Aij-Eij‌ )-0,5)2

  15. Bunka (fx) > kategória štatistické (funkcie) > CHITEST • Zadať pole aktuálnych počtov a pole očakávaných počtov • Existuje rozdiel medzi mužmi a ženami v skutočnom (aktuálnom) rozložení preferencií (úrovní kategorickej premennej) a tým, koľko by sme očakávali pri podobných preferenciách? • Je tento rozdiel dosť veľký na to, aby sme urobili štatistický záver o závislosti preferencií na pohlaví, alebo mohol byť tento rozdiel spôsobený náhodnou chybou? • Testováštatistika: chí2 = 4,85, df = (3-1)*(2-1) =2 • Výstup je hodnota pravdepodobnosti P=0,088

  16. Nominálna nezávislosť: Chi2 = 4,851, DF = 2, P = 0,0884Fisher-Freeman-Haltonov exaktný test:P = 0,0884

  17. Testovanie hypotézy • Ho: Muži a ženy majú rovnaké rozdelenie „preferencií“t.j. početností odpovedí v kategórii „Hodnotenie nedostatkov v zdravotnej starostlivosti“. • Ha: Muži a ženy nemajú rovnaké rozdelenie „preferencií“t.j. početností odpovedí v kategórii „Hodnotenie nedostatkov v zdravotnej starostlivosti“. • Testujeme na hladine významnosti alfa = 0,01

  18. Interpretácia výsledku testovania • Pozrieť na hodnotu pravdepodobnosti, ktorá je „prepojená“ s hodnotou testovej štatistiky (chí2 = 4,85) p = 0,088 • Záver: Zamietame alebo akceptujeme nulovú hypotézu na hladine významnosti alfa = 0,01? • Akceptujeme nulovú hypotézu a zamietame alternatívnu. Medzi mužmi a ženami nie je významný rozdiel v termínoch preferenciít.j. početností odpovedí v kategórii „Hodnotenie nedostatkov v zdravotnej starostlivosti“. • Stačí? Nestačí! (Štatistická významnosť nie je klinická/praktická významnosť). Interpretujeme ďalej...preštudovaním konkrétnych početností v bunkách tabuľky.Rozhodnite, ktorou cestou „čítate“ tabuľku (podľa usporiadania oboch kategórií: stĺpce vs. riadky) a popíšte charakter rozdielov medzi podskupinami (pohlaviami). Všímajte si bunky s veľkými rozdielmi medzi aktuálnymi (pozorovanými) a očakávanými hodnotami (percentami).

  19. Interpretácia výsledku z popisnej štatistiky Záver začíname “spomedzi…/z” a doplníme názov „riadkovej“ kategorickej premennej (typ odpovede) alebo stĺpcovej (pohlavie). Keď čítame po riadkoch, čítame pozdĺž “vnútri-riadkovej” premennej. Keď čítame po stĺpcoch, čítame nadol “vnútri-stĺpcovej“premennej. Záver:zdá sa, že muži najviac volili „dostupnosť“ a ženy „kvalitu“ (Čítanie nadol stĺpcami) Ďalej, z pacientov, ktorí preferovali kvalitu bolo 40% mužov a 60% žien. Z pacientov, ktorí preferovali dostupnosť bolo 61% mužov a 39% žien. Nerozhodnutých mužov bolo viac (27%) ako nerozhodnutých žien (18%) (Čítanie pozdĺž riadkov) Celkovo sme náhodným výberom pacientov „zabezpečili“ približne rovnaké zastúpenie žien (47,6%) aj mužov (52,4) (pozn. možno overiť znamienkovým testom )

More Related