1 / 33

Kvalita diagnostiky z pohledu (klasické) teorie testů

Kvalita diagnostiky z pohledu (klasické) teorie testů. Petr Blahuš. Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu. Co je “diagnostika” ?? Konotace:

jetta
Download Presentation

Kvalita diagnostiky z pohledu (klasické) teorie testů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kvalita diagnostiky z pohledu (klasické)teorie testů Petr Blahuš Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu

  2. Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Odlišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“

  3. Diagnostikovaná vlastnost splňuje vědecké požadavky: “výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp ...

  4. Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”

  5. Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná pomocí dílčíkonkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru

  6. Teoreticko-konceptuálníproměnná,konstrukt povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,

  7. Příklad z klinické lékařské oblasti: - inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi, ... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)

  8. Zprostředkované “slabéasociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí, . . . a nejstarší klasický - klasický model teorie testů,

  9. Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu

  10. Intuitivní příklady:  obtížnost - validita  reliabilita - validita  délka testu - reliabilita - validita  oprava validity na vliv nepřijatých uchazečů  validita proti efektivitě selekce Příklady obvyklých praktických úkolů: maximalizace predikční validity pro přijímání a selekci uchazečů  optimální redukce a úspornost diagnostiky “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.

  11. “Psychometrické” vlastnosti testu: reliabilita, validita objektivita, homogenita*, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)

  12. Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.

  13. Druhy psychometrické validity latentní - manifestní faktorová(v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní(MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní

  14. Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest”(u paralelních testů) -dělením, “split-half “(paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence”-dva různé testy paralelně-ekvivalentní - metodou “dolní meze”(u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“

  15. Typy ekvivalence testů u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální

  16. Indikátor = “test” Koncept = “to, co má test měřit” .. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba

  17. Terminologie teorie testů: pozorovanáhodnota = skutečnáhodnota + diskrepance observed score x = true score  + discrepancy  x =  +  x  Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulovédiagnostické diskrepance téměř nikdy nevyskytuje.

  18. Dvě pojetí nepozorovatelné skutečné hodnoty : 1) ...specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´ ...diagnostická chyba , jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout  několika n opakováními 1, 2,..., n jako jejich průměrP P(x1, x2,.. .xn) , tj. statistický odhad blížící se k neznámemu .

  19. ... generická úroveň teoretického “konstruktu” společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různýmitesty´, pak  ... diskrepance hodnoty x daného testu od  coby úrovně “konstruktu” , společného skupině m testů x1, x2, ..., xm,  = směschyby a specifičnosti testu

  20. U specifického  :  = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů, ... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO2 max  3% ,

  21. Klasický model teorie testů x =  +  vede i k rozkladu rozptylu: Sx2 = S2 + S2 . Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.

  22. Střední- standardní diagnostická chyba • se intuitivně-logicky definuje jako • směrodatná odchylka diskrepancí, S , • tj. jako odmocnina rozptylu diskrepancí, • jakoby analogie • střední chyby „měření” S

  23. OBSAHOVĚ HOMOGENNÍTESTY či jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami  PARALELNĚ EKVIVALENTNÍ TESTY , zkráceně JEN: PARALELNÍ takové homogennítesty ve skupině diagnostikují jim společnou vlastnost  se stejnoustřední diagnostickou chybouS

  24. Koeficient diagnostické reliability (“spolehlivosti”) Rel x = S2 / Sx2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelacidvou paralelníchx , x´, - buď různých paralelních testů x , x´ - nebo paralelních měření x , x´ týmž testem

  25. Praktické stanovení střední diagnostické chyby: Známe-li ze standardizačních studií reliabilitu Relx a směrodatnou odchylku u dané populace, vypočteme S=Sx Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů 5 mmHg střední diagnostická chyba je S= 5 .(1- 0,81) = 5 .0,09 = 5 . 0,3 = 1,5 mmHg

  26. Střední a přibližně mezní diagnostická chyba: Při přibližně normálním rozložení: a)“střední“ chybaS- tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chybamax  2.S , Ve výše uvedeném příkladu max 3 mmHg

  27. Kritický rozdíl dvou výsledků • U normálního rozdělění při volbě 95%-ní chyby • . • rozdíl či přírůstek, který • překračuje chyby diagnostikování • stanovíme přibližně • xa - xbkrit = 1,4 .max • Např. zlepšení či zhoršení krevního tlaku • je teprve rozdíl větší než 1,4 . 3 = 4,2 mmHg

  28. Reliabilita = „nutná podmínka validity”- a tedy: jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum rxy= Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum rxy=

  29. c) „Disatenuace“ validity Při validitě xku y , např. rxy = 0,48, a reliabilitách Rel x= 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? rTxTy= rxy/( ) = 0,48 / (0,8 . 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability -rTxTy1... testy jsou kongenericky ekvivalentní

  30. Vliv délky testu na spolehlivost • Spearmanův-Brownův S-B vzorec: • Rel(nx) = n Relx / [1 + (n-1) Relx ] • pro test, jehož části jsouparalelně ekvivalentní • Je-li test x vnitřně paralelní a s reliabilitou 0,60, • prodloužení n = 4-krát: • Rel(4x)= 4. 0,6 / [1 + (4-1).0,6] = • = 2,4 / 2,8 =0,86, • pokud 4-násobné prodloužení je prakticky únosné.

  31. Použití S-B na “split-half” odhad reliability: - test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test. . Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.

  32. Vliv délky testu na validitu • Vyšší reliabilita umožňuje zlepšit validitu - • tuto potencialitu lépe odhadneme • u vnitřně paralelního testu pomocí vzorce: • r(nx) y = rxy /

  33. PREDIKČNÍ VALIDITA - problémy: • - oprava zkreslené validity vzhledem k odmítnutým • uchazečům • rxy = 1 / • - validita vs. efektivita selekce

More Related