Neparametrické metody

Neparametrické metody t-testem (a řadou dalších) testuji hypotézy o parametrech rozdělení (v t-testu o μ jako parametru normálního rozdělení); jsou ale i jiné přístupy

Co dělat, když data nemají normální rozdělení?a narušení normality ja tak velké, že nemohu spoléhat na robustnost testu • exitují transformace, které data přiblíží k normalitě (to improve the normality a homoscedascity) [bude probráno později] • Pokud mají data rozdělení, které lze rozumně aproximovat vybranými typy rozdělení, pak lze použít speciální metody pro ně vyvinuté (zobecněné lineární modely) [Šmilauerova přednáška Moderní regresní metody] • Použijeme neparametrické testy

Neparametrické metody Nejčastěji: • Permutační [obecně randomizační] testy • Testy založené na pořadí

Permutační testy • Základní myšlenka (pro t-test): • Dosažená hladina významnosti je pravděpodobnost, že takhle rozdílné výběry dostanu náhodou, pokud vybírám z jednoho základního souboru. No tak si to vyzkouším - hodím všechna pozorování z obou skupin do klobouku, a budu si skupiny tahat:

A tak dále, aspoň tisíckrát Koukám, kolikrát je |t| z náhodně generova-ných skupin větší než to z dat. Tak si to tady zkouším nasimulovat Tomuhle P nevěřím, protože nevím, jestli jsou splněny předpoklady

Dosažená hladina významnosti (P) se pak vypočítá Počet náhodných permutací, kde “to vyšlo lépe než nebo stejně jako” v datech (tedy kde |tpermut | > |tdata |

Pozor • Testuji vlastně hypotézu, že oba výběry pocházejí z téhož (ze stejného) základního souboru. Pokud chci test interpretovat jako test o poloze, pak musím přidat podmínku, že oba soubory mají stejný tvar rozdělení. Pokud se potom liší, mohou se lišit jen v parametru polohy.

Testy založené na pořadí • Základní myšlenka - nevíme, jaké je rozdělení, tak zapomeneme na skutečné hodnoty, a nahradíme je pořadím • Řada parametrických metod má své neparametrické protějšky

Mann-Whitney(ův) testneparametrická obdoba dvouvýběrového t-testu • Všechny hodnoty obou výběrů seřadíme (a tím dostanou čísla od 1 do n, kde n=n1+n2) • Je jedno, jestli řadím odzdola nebo odshora, jen si na to musím dát pozor, když bych užíval jednostranné testy

spočtu dá zvlášť vysokou hodnotu, pokud jsou pořadí v první skupině nízká nebo dá zvlášť vysokou hodnotu, pokud jsou pořadí v druhé skupině nízká R – součet pořadí v první resp. druhé skupině Platí U + U' = n1n2,

Pozor Bývají tabelovány různé hodnoty, dejte si pozor na to, co je vlastně tabelováno a jak Statistika tiskne 2*1sided exact p (kdybych chtěl jednostranný test, pokud jde odchylka správným směrem, vydělím dvěma)

Normální aproximace - když je velký počet pozorování, platí Z = (U-U)/ U má tedy přibližně normované normální rozdělení. K tomu lehce dohledám příslušné p - tiskne Statistica. - Pozor - pokud mám přesné p, je tato hodnota už nezajímavá.

Podobně jako permutační test • i M-W má svoje předpoklady: • Buď je testem nulové hypotézy, že se jedná o výběry z téhož základního souboru • Pokud je formulován jako test o poloze, pak je předpokladem, že se jedná s soubory se stejným tvarem rozdělení • (ale je podstatně méně citlivý na „ulítlé“ hodnoty než parametrické testy)

Je tedy ošidné psát • protože jsme neměli homogenitu variance, museli jsme použít neparametrický test. • 1. testovat, že se jedná o tentýž základní soubor, když jsem předtím prokázal nehomogenitu variance nedává smysl • 2. pro test o poloze teopreticky vadí nehomogenita stejně pro MW jako pro t. (I když možná ne tak úplně moc, nehomogenita variancí původních dat bývá větší než nehomogenita variancí pořadí.)

Další předpoklad - data lze seřadit Shody průměrujeme - odchylka od původního předpokladu, může činit problém, některé testy používají korekce na shody “ties”

Mediánový test • Spočítám, společný medián, a kolik je ve které skupině pozorování nad, a kolik pod mediánem. To pak vyhodnotím klasickou čtyřpolní tabulkou. Tady je to test o společném mediánu, a nemá žádné další předpoklady, ale je hodně slabý.

Wilcoxonův test • Obdoba párového t-testu • Pozor, někdy se Wilcoxonovým nazývá více testů, proto se někdy píše Wilcoxonův pro párová pozorování

Wilcoxonův test • spočteme nejprve diference mezi pozorováními, potom je seřadíme podle velikosti jejich absolutní hodnoty od nejmenšího k největšímu. (Předpokládáme tedy, že jsou data odečitatelná, tj. rozdíl dat dává smysl – často se nedodržuje.) Poté spočteme součet pořadí kladných a součet pořadí záporných rozdílů (označujeme je T+ a T-). (Protože součet řady čísel 1 až n je n(n+1)/2, lze snadno dopočítat T+={n(n+1)/2}-T-) Test tedy odráží jak počet, tak velikost kladných a záporných rozdílů.

Opět lze užít normální aproximaci (pro velké výběry) a z toho spočítat Z. Pozor, Statistica uvádí pouze normální aproximaci, netiskne přesné p -nutno dohledat v tabulkách. tabulky jsou třeba na http://fsweb.berry.edu/academic/education/vbissonnette/tables/wilcox_t.pdf Test má předpoklad symetričnosti rozdělení rozdílů (a samozřejmě, že rozdíly můžeme spočítat, tj. že hodnoty jsou odečitatelné, nebo že rozdíl hodnot dává smysl).

V praktiku mám příklad, kdy se používá na ordinální data (míra naštvanosti psů). Nicméně, tím říkám, že rozdíl mezi naštvaností 1 a 3 je stejný jako mezi naštvaností 2 a 4.

Znaménkový test Porovnává počet kladných a záporných rozdílů Nemá prakticky žádné předpoklady, ale je velmi slabý

Neparametrické testy • jsou-li splněny předpoklady pro parametrický test bývají slabší než odpovídající parametrický test. • Není ale pravdivá obecná představa, že nemají žádné předpoklady • Obecně - čím více pozorování mám, tím jsou obvykle parametrické testy robustnější k narušení předpokladů • Čím silnější předpoklady mám splněné, tím silnější test si obvykle mohu dovolit použít

Neparametrické metody

Neparametrické metody

Presentation Transcript

METODY DEZODORYZACJI

Vy etrovac metody v gastroenterologii

Vybrané aktivizační metody v praktické výuce Lída Holá lidahola@centrum.cz czechstepbystep.cz

Metody wirtualne

KlinickÃ¡ cytogenetika - metody

Domácí úkol

Difrak ční metody

VYUČOVACÍ METODY V PŘÍRODOPISE

Didaktické metody ve vzdělávání dospělých

Metody hledání optima

Metody aktywizujące

Vybrané metody ACh

METODY TESTOVÁNÍ GENOTOXICITY

Statistické metody v ochraně kulturního dědictví

Nieklasyczne metody syntezy piroli

Propedeutika

Metody regulacji poczęć

Optické metody

Pátráme po mikrobech Díl III. Identifikační metody (hlavně biochemické)

Metody ve SH

urządzenia do pomiaru przesunięć liniowych i kątowych

Metody projektowania macierzy sterowania (sprzężenia zwrotnego) L