neparametrick metody n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Neparametrické metody PowerPoint Presentation
Download Presentation
Neparametrické metody

Loading in 2 Seconds...

play fullscreen
1 / 24

Neparametrické metody - PowerPoint PPT Presentation


  • 174 Views
  • Uploaded on

Neparametrické metody. t- testem (a řadou dalších) testuji hypotézy o parametrech rozdělení (v t -testu o μ jako parametru normálního rozdělení); jsou ale i jiné přístupy.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Neparametrické metody' - jyotika


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
neparametrick metody

Neparametrické metody

t-testem (a řadou dalších) testuji hypotézy o parametrech rozdělení (v t-testu o μ jako parametru normálního rozdělení); jsou ale i jiné přístupy

slide2
Co dělat, když data nemají normální rozdělení?a narušení normality ja tak velké, že nemohu spoléhat na robustnost testu
  • exitují transformace, které data přiblíží k normalitě (to improve the normality a homoscedascity) [bude probráno později]
  • Pokud mají data rozdělení, které lze rozumně aproximovat vybranými typy rozdělení, pak lze použít speciální metody pro ně vyvinuté (zobecněné lineární modely) [Šmilauerova přednáška Moderní regresní metody]
  • Použijeme neparametrické testy
neparametrick metody1
Neparametrické metody

Nejčastěji:

  • Permutační [obecně randomizační] testy
  • Testy založené na pořadí
permuta n testy
Permutační testy
  • Základní myšlenka (pro t-test):
  • Dosažená hladina významnosti je pravděpodobnost, že takhle rozdílné výběry dostanu náhodou, pokud vybírám z jednoho základního souboru. No tak si to vyzkouším - hodím všechna pozorování z obou skupin do klobouku, a budu si skupiny tahat:
slide5

A tak dále, aspoň tisíckrát

Koukám, kolikrát je |t| z náhodně generova-ných skupin větší než to z dat.

Tak si to tady zkouším nasimulovat

Tomuhle P nevěřím, protože nevím, jestli jsou splněny předpoklady

dosa en hladina v znamnosti p se pak vypo t
Dosažená hladina významnosti (P) se pak vypočítá

Počet náhodných permutací, kde “to vyšlo lépe než nebo stejně jako” v datech

(tedy kde |tpermut | > |tdata |

pozor
Pozor
  • Testuji vlastně hypotézu, že oba výběry pocházejí z téhož (ze stejného) základního souboru. Pokud chci test interpretovat jako test o poloze, pak musím přidat podmínku, že oba soubory mají stejný tvar rozdělení. Pokud se potom liší, mohou se lišit jen v parametru polohy.
testy zalo en na po ad
Testy založené na pořadí
  • Základní myšlenka - nevíme, jaké je rozdělení, tak zapomeneme na skutečné hodnoty, a nahradíme je pořadím
  • Řada parametrických metod má své neparametrické protějšky
mann whitney v test neparametrick obdoba dvouv b rov ho t testu
Mann-Whitney(ův) testneparametrická obdoba dvouvýběrového t-testu
  • Všechny hodnoty obou výběrů seřadíme (a tím dostanou čísla od 1 do n, kde n=n1+n2)
  • Je jedno, jestli řadím odzdola nebo odshora, jen si na to musím dát pozor, když bych užíval jednostranné testy
spo tu
spočtu

dá zvlášť vysokou hodnotu, pokud jsou pořadí v první skupině nízká

nebo

dá zvlášť vysokou hodnotu, pokud jsou pořadí v druhé skupině nízká

R – součet pořadí v první resp. druhé skupině

Platí U + U' = n1n2,

pozor1
Pozor

Bývají tabelovány různé hodnoty, dejte si pozor na to, co je vlastně tabelováno a jak

Statistika tiskne 2*1sided exact p (kdybych chtěl jednostranný test, pokud jde odchylka správným směrem, vydělím dvěma)

norm ln aproximace kdy je velk po et pozorov n plat
Normální aproximace - když je velký počet pozorování, platí

Z = (U-U)/ U má tedy přibližně normované normální rozdělení. K tomu lehce dohledám příslušné p - tiskne Statistica. - Pozor - pokud mám přesné p, je tato hodnota už nezajímavá.

podobn jako permuta n test
Podobně jako permutační test
  • i M-W má svoje předpoklady:
  • Buď je testem nulové hypotézy, že se jedná o výběry z téhož základního souboru
  • Pokud je formulován jako test o poloze, pak je předpokladem, že se jedná s soubory se stejným tvarem rozdělení
  • (ale je podstatně méně citlivý na „ulítlé“ hodnoty než parametrické testy)
je tedy o idn ps t
Je tedy ošidné psát
  • protože jsme neměli homogenitu variance, museli jsme použít neparametrický test.
  • 1. testovat, že se jedná o tentýž základní soubor, když jsem předtím prokázal nehomogenitu variance nedává smysl
  • 2. pro test o poloze teopreticky vadí nehomogenita stejně pro MW jako pro t. (I když možná ne tak úplně moc, nehomogenita variancí původních dat bývá větší než nehomogenita variancí pořadí.)
dal p edpoklad data lze se adit
Další předpoklad - data lze seřadit

Shody průměrujeme - odchylka od původního předpokladu, může činit problém, některé testy používají korekce na shody “ties”

medi nov test
Mediánový test
  • Spočítám, společný medián, a kolik je ve které skupině pozorování nad, a kolik pod mediánem. To pak vyhodnotím klasickou čtyřpolní tabulkou. Tady je to test o společném mediánu, a nemá žádné další předpoklady, ale je hodně slabý.
wilcoxon v test
Wilcoxonův test
  • Obdoba párového t-testu
  • Pozor, někdy se Wilcoxonovým nazývá více testů, proto se někdy píše Wilcoxonův pro párová pozorování
wilcoxon v test1
Wilcoxonův test
  • spočteme nejprve diference mezi pozorováními, potom je seřadíme podle velikosti jejich absolutní hodnoty od nejmenšího k největšímu. (Předpokládáme tedy, že jsou data odečitatelná, tj. rozdíl dat dává smysl – často se nedodržuje.) Poté spočteme součet pořadí kladných a součet pořadí záporných rozdílů (označujeme je T+ a T-). (Protože součet řady čísel 1 až n je n(n+1)/2, lze snadno dopočítat T+={n(n+1)/2}-T-)

Test tedy odráží jak počet, tak velikost kladných a záporných rozdílů.

op t lze u t norm ln aproximaci pro velk v b ry
Opět lze užít normální aproximaci (pro velké výběry)

a z toho spočítat Z.

Pozor, Statistica uvádí pouze normální aproximaci, netiskne přesné p -nutno dohledat v tabulkách.

tabulky jsou třeba na http://fsweb.berry.edu/academic/education/vbissonnette/tables/wilcox_t.pdf

Test má předpoklad symetričnosti rozdělení rozdílů (a samozřejmě, že rozdíly můžeme spočítat, tj. že hodnoty jsou odečitatelné, nebo že rozdíl hodnot dává smysl).

slide22
V praktiku mám příklad, kdy se používá na ordinální data (míra naštvanosti psů). Nicméně, tím říkám, že rozdíl mezi naštvaností 1 a 3 je stejný jako mezi naštvaností 2 a 4.
znam nkov test
Znaménkový test

Porovnává počet kladných a záporných rozdílů

Nemá prakticky žádné předpoklady, ale je velmi slabý

neparametrick testy
Neparametrické testy
  • jsou-li splněny předpoklady pro parametrický test bývají slabší než odpovídající parametrický test.
  • Není ale pravdivá obecná představa, že nemají žádné předpoklady
  • Obecně - čím více pozorování mám, tím jsou obvykle parametrické testy robustnější k narušení předpokladů
  • Čím silnější předpoklady mám splněné, tím silnější test si obvykle mohu dovolit použít