1 / 30

Statistik Lektion 7

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer. Trin I en Hypotesetest. En hypotesetest består af 4 elementer: Antagelser Primært hvilken fordeling stikprøven følger Hypoteser Opstil H 0 og H 1 hypoteser

temima
Download Presentation

Statistik Lektion 7

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatistikLektion 7 Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

  2. Trin I en Hypotesetest • En hypotesetest består af 4 elementer: • Antagelser • Primært hvilken fordeling stikprøven følger • Hypoteser • Opstil H0 og H1 hypoteser • Teststørrelser • Hvilken fordeling har teststørrelsen • Hvilke værdier er kritiske for H0? • Beslutning/konklusion • Vha. p-værdi • Vha. kritisk værdi

  3. Eksempel: Test af middelværdi (to-sidet test) • Antagelse: Populations-variansen s2 er kendt og populationen er enten normal eller stikprøven er stor (n>30). • Hypoteser: • Teststørrelsen: • Stikprøvefordeling: Når H0 er sand så følger Z en standard normalfordeling • Beslutning: Princippet er at H0 hypotesen er sand indtil det modsatte er bevis. Det betyder bl.a. at alle beregninger foretages under antagelse af at H0 er sand. I en-sidet test (fx: H0: m≤ m0) betyder H0 sand at beregning foretaget med m=m0.

  4. p-værdi og signifikansniveau a • p-værdien af en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så fritisk for H0 som den allerede observerede teststørrelse, under antagelse af, at nul hypotesen er sand. • Signifikansniveaueta er et tal, således at H0 forkastes, hvis p-værdien er mindre end a. • a er normalvis 0.05 eller 0.01. • a vælges føranalysen foretages. • Hvor lille et signifikans niveau man vælger, afhænger af hvilke konsekvenser beslutningen om at forkaste H0 har. Hvis det er et spørgsmål om liv eller død, for eksempel i medicinske forsøg, vælges α meget lille. Men hvis det ”bare” er at teste om et folketingsparti er større end et andet, kan man godt α større.

  5. Signifikansniveau: a=0.05 Fordelingen Z under H0: p-værdi: Da p-værdi < a forkastes H0. Hypoteser: H0: m = 30 H1: m ≠ 30 Stikprøve: n = 50 = 31.5 s = 5 Teststørrelse: Eksempel 0.017 0.017 (1-a)100% z 2,12 -2,12

  6. Kritiske værdier • I tilfælde, hvor man ikke kan bestemme p-værdien kan man typisk finde de kritiske værdier. • De kritiske værdier svarer til teststørrelser, der har en p-værdi lig signifikansniveauet a. • Eksempel: To-sidet test af middelværdien, s kendt, a=0.05. • I dette tilfælde er de kritiske værdier -1.96 og 1.96 • Tilsvarende kritiske værdier kan findes for andre fordelinger, fx t-fordelingen. • Dvs. hvis eller , så ved vi at p-værdien ≤ 0.05. • Hvis p-værdien ≤ 0.05 afviser vi H0. 2.5% 2.5% 95& z -1,96 1,96

  7. H0: m = 30 H1: mm 30 Signifikansniveau: a=0.05 Stikprøve: n = 50 = 31.5 s = 5 Test størrelse: Kritiske værdi: Da 2,12 > 1,96 forkastes H0 (eller hvis den var mindre end -1,96) Hvis højresidet test, dvs. H1:μ>30: Da 2,12 > 1.645 forkastes H0 Hvis venstresidet test, dvs. H1:μ<30: Da 2,12 ikke er mindre end -1,645, forkastes H0 ikke Eksempel

  8. En- og to-sidet test af middelværdi for store eller normale stikprøver og kendt varians og signifikansniveau a. H0: m = m0 H1: m ≠ m0 To-sidet test Forkast H0, hvis |z| > Za/2 H0: m = m0 H1: m < m0 Forkast H0, hvis z < -Za En-sidet test H0: m = m0 H1: m > m0 Forkast H0, hvis z > Za I alle tre tilfælde er teststørrelsen

  9. Type I og type II fejl • Type I fejl: En sand H0 forkastes. • Type II fejl: En falsk H0 forkastes ikke. • Signifikans niveauet a er sandsynligheden for at begå en Type I fejl. • Sandsynligheden for at begå en Type II fejl betegnes β. • Sandsynligheden for Type I og Type II fejl er inverst relaterede, dvs. når den ene stiger, så falder den anden, så man kan ikke vælge begge to så lavt som muligt – se næste slide.

  10. Hvordan α og β afhænger af hinanden • Typisk vælger man at fastsætte sandsynligheden for type II fejl, a, så man ikke begår store fejl. • For eksempel hvis H0 er, at en eller anden medicinsk behandling er skadelig, er det bedre at være sikker på, at man ikke forkaster H0 selvom den er sand, end at være sikker på, at man ikke forkaster den, selvom den er falsk. For forskellige n og et bestemt μ

  11. Beregning af  (for en venstre sidet test) • Se på følgende hypoteser: • H0:   1000 • H1:   1000 • Lad  = 5,  = 5%, og n = 100. • Man kan kun beregne b for konkrete (alternative) valg af m. • Vi vil beregne  når  = 1 = 998. Se næste slide • Figuren viser fordelingen af når = 0 = 1000, og når = 1 = 998. • Bemærk at H0 vil blive forkastet, når er mindre end den kritiske værdi givet ved • Omvendt, H0 vil ikke blive forkastet, når er større end .

  12. Beregning af  Fordeling af X når m = m0. Fordeling af X når m = m1. Forkast H0 Forkast ikke H0

  13. Beregning af  (for en venstre sidet test) • Når = 1 = 998, så ersandsynligheden for ikke at forkaste H0, dvs. den er . • Når = 1, så vil følge en normal fordeling med middelværdi 1og standard afvigelse = /n, så: • Styrken(power) af en test, er sandsynligheden for at den falske nul hypotese bliver opdaget af testen. • Styrkenaftesten = 1 –β = 1 – 0.0091 = 0.9909.

  14. Sammenligning af to grupper • Tjener mænd og kvinder lige meget? (Respons: Løn, Forklarende: Køn) • Kører en Fiat X-1/9 og en Lancia Stratos det samme antal kilometer per liter? (Forklarende: Bilmodel, Respons: antal kilometer per l) • Kører en VW Touran det samme antal kilometer per liter på almindelig benzin, som på bio benzin? (Forklarende: Benzin type, Respons: antal kilometer) • Er der forskel på hvor hurtigt man løber 5 km, når man har originale Nike sko og Super Nike sko på?

  15. Afhængige og uafhængige stikprøver • Ved en uafhængig stikprøve udtages en stikprøve fra hver gruppe. • Mænd og kvinders løn: Tag en stikprøve fra gruppen af mænd og en stikprøve fra gruppen af kvinder og sammenlign gennemsnitslønnen for de to grupper. • Kilometer per liter: Tilfældig stikprøve af Touran’er og tilfældig stikprøve af Skoda’er. • Ved en afhængig stikprøve er observationerne i de to grupper parrede. Oftest er det den samme person/genstand, der bliver observeret i to forskellige situationer. • Bio benzin kontra almindelig benzin: Vælg tilfældigt et antal VW Touran’er og test dem med de to forskellige typer benzin. • Original Nike sko kontra Super Nike sko: Vælg tilfældigt nogle personer til at løbe 5 km og lad dem teste begge par sko.

  16. Resten af forelæsningen • Sammenligning af to middelværdier – kendt varians • Hypotesetest • Konfidensinterval • Sammenligning af to middelværdier – ukendt varians • Hypotesetest • Konfidensinterval

  17. Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationer Antag vi har to uafhængige populationer med ukendte middelværdier mx og my og kendte varianser s2x og s2y. Vi vil udtale os om forskellen i middelværdi: md = mx-my. Fra hver population har vi hhv. nxog ny observationer. Vi har og dvs. er en unbiased og konsistent estimator for md

  18. Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationer Sætning: Antag vi har to stikprøver fra to uafhængige populationer bestående af hhv. nxog ny observationer. De to populationer har middelværdier mx og my og kendte varianser s2x og s2y. Hvis nxog ny er store eller de to populationer er normalfordelte, så er et (1-a)100% konfidensinterval for mx-my givet ved Som sædvanligt har vi taget udgangspunkt i

  19. Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationer Antagelser: To uafhængige stikprøver fra to populationer, og enten normalfordelte populationer eller store stikprøver Hypoteser H0: mx-my = D0 vs H1: mx-my  D0 Teststørrelse p-værdi Beslutning: Afvis H0, hvis p-værdi < a Kritiske værdier Beslutning: Afvis H0 hvis |z|>za/2

  20. Eksempel – er der forskel på hvor langt bilerne kører på 25 l. benzin? H0: mx-my= 0 vsH1: mx-my 0 Teststørrelse p-værdi: 2·P(Z>|5,025|) ≈ 0 Vi forkaster H0, dvs. der er en forskel i hvor langt de to biltyper kører på literen. 95% Konfidensinterval: Population X: Fiat X-1/9 Population Y: Lancia Stratos

  21. Sammenligning af to middelværdierTo normalfordelte populationer med ukendte varianser Når de to populationer har forskellige varianser varianserne er ukendte er et estimat af givet ved: Hvis de to populationer har ens varianser, så er et estimat for givet ved hvor s2p er den ”poolede” varians er et estimat for den fælles varians:

  22. Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationer Sætning: Antag vi har to stikprøver fra to uafhængige normale populationer med middelværdier mx og my bestående af hhv. nxog ny observationer. Hvis de to populationer har samme varians, så er et (1-a)100% konfidensinterval for mx-my givet ved Hvis populationerne har forskellige varianser er konfidens-intervallet givet ved hvor antallet af friheds grader er:

  23. Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationer Hypoteser H0: mx-my = D0 vs H1: mx-my  D0 Hvis s2x = s2y Teststørrelse p-værdi Kritiske værdier Hvis s2xs2y Teststørrelse p-værdi Kritiske værdier

  24. Eksempel • Teststørrelse: • Kritiske punkter: • Beslutning: • H0 afvises da 2.67 > 2.11 (antal drenge) • Forskel på højden af drenge og piger • Antag s12 = s22. • Hypoteser: • H0: m1 = m2 • H1:m1 ≠ m2 • Signifikansniveau: • a = 0.05 (antal piger) (gennemsnitshøjde drenge) (gennemsnitshøjde piger) (est. standardafv. drenge) (est. standardafv. piger)

  25. Sammenligning af to middelværdier i R • Er der en forskel på mænd og kvinder middelvægt? • Altid plot før test!> sundby = read.table("Sundby95.dat", header=T)> library(trellis) # udvidelse med ekstra plot-funktioner> histogram(~ vaegt | koen, data=sundby)

  26. Sammenligning af to middelværdier i R > sundby = read.table("Sundby95.dat", header=T) > t.test(vaegt~koen, data=sundby, var.equal = F) WelchTwo Sample t-test data: vaegt by koen t = -31.2108, df = 2449.037, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percentconfidence interval: -15.52725 -13.69148 sample estimates: mean in group Kvinde mean in group Mand 64.38064 78.99001 • Da p-værdien = 2.2∙10 -16 < 0.05 afviser vi H0 - hypotesen. • Dvs. der er en forskel på mænds og kvinders middelvægt. • a t-teststørrelse Antal frihedsgrader p-værdi H1-hypotesen 95% konfidens-interval for forskellen i middelværdi.

  27. Parrede observationer • For den i’te person har vi to observationer Xi,1og Xi,2, fx. blodtryk før og efter behandling. • For den i’te person definerer vi differencen Di = Xi,1-Xi,2. • Forskelle mellem ”før” og ”efter” kan nu undersøges vha. hypotesetest af middeldifferencen, mD. • Typisk antagelse er, at differencerne er normalfordelte, Di ~ N(mD, sD2). • Estimaterne for hhv. middelværdi og varians betegnes og .

  28. Parrede observationer • Udregn differencer:

  29. Parret t-test i R > Nike = read.table("Nike.dat",header=T) > fix(Nike) > t.test(Nike$Super, Nike$Original, paired=T) Paired t-test data: Nike$Super and Nike$Original t = -2.0174, df = 7, p-value = 0.08345 alternative hypothesis: true difference in means is not equal to 0 95 percentconfidence interval: -2.7151678 0.2151678 sample estimates: mean of the differences -1.25 • p-værdi = 0.08345 > 0.05, dvs. vi kan ikke afvise H0. • Dvs. vi kan ikke afvise at de to sko-typer er lige gode • a Bemærk: 95% konfidensinterval for forskellen i middelværdi indeholder 0!

  30. Bemærkninger til parret t-test • Selvom vi har to sæt af observationer, så koger det ned til et sæt af differencer. Vi tester derfor kun én middelværdi, og kan derfor ”genbruge” t-testet fra sidst. • Ved at have parrede observationer, forsvinder variationen i observationerne, der skyldes variationen i ”deltagerne”. Dette gælder kun hvis differencerne er uafhængige af før-målingerne.

More Related