1 / 41

Statistik Lektion 6

Statistik Lektion 6. Konfidensinterval for andele c 2 -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele. Repetition fra sidst: Konfidensintervaller.

Download Presentation

Statistik Lektion 6

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatistikLektion 6 Konfidensinterval for andele c2-fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele

  2. Repetition fra sidst: Konfidensintervaller • Et punkt-estimat estimerer værdien af en ukendt populations-parameter ved en enkelt værdi. • Fx: Middelhøjden blandt oecon studernde . • Et konfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauet. • Et punkt estimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat? • Et interval estimat indeholder flere informationer, for eksempel: • Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande middelværdi μ. • Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den sande middelværdi μ.

  3. Repetition fra sidst • (1-α)100% konfidens interval for: • Populations middelværdi μ, når X er normal fordelt (eller stikprøven er stor) og σ er kendt: • Populations middelværdi μ, når X er normal fordelt og σ er ukendt: Husk:n-1 frihedsgrader

  4. Konfidensinterval for andelen i en stor stikprøve • Estimatet af populations-andelen, p,er stikprøve-andelen , ,dvs. andelen af succeser i stikprøven. • Hvis np(1-p)>9, så er stikprøve-fordelingen af stikprøve-andelen ca. normalfordelt: • Et (1-α)100% konfidensinterval for p er

  5. Eksempel For en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder? En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt. Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

  6. 2-fordelingen [ki-i-anden] C h i - S q u a r e D i s t r i b u t i o n : d f = 1 0 , d f = 3 0 , d f = 5 0 • En 2 fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre. • Fordelingen er højreskæv. • En 2 fordeling er specificeret ved antallet af frihedsgrader. • Notation: En stokastisk variabel Y, der følger en 2 fordeling med nfrihedsgrader angives som 0 . 1 0 df = 10 0 . 0 9 0 . 0 8 0 . 0 7 0 . 0 6 ) df = 30 2  5 0 . 0 ( f 0 . 0 4 df = 50 0 . 0 3 0 . 0 2 0 . 0 1 0 . 0 0 0 5 0 1 0 0  2 • 2-fordelingen nærmer sig en normal-fordelingen, når antallet af frihedsgrader vokser.

  7. Mere om 2 fordelingen [ny] • Hvis Y er c2-fordelt med n frihedsgrader: • Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer Da gælder

  8. Stikprøvevariansen og dens fordeling • Stikprøve-variansenfor en tilfældig stikprøve er • Generelt gælder • Hvis populationen er normalfordelt gælder

  9. Sandsynligheder i 2fordelingenTabel 4 s778 a Areal i højre hale (α) .995 .990 .975 .950 .900 .100 .050 .025 .010 .005 1 0.0000393 0.000157 0.000982 0.000393 0.0158 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.21 10.60 3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.34 12.84 4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.14 13.28 14.86 5 0.412 0.554 0.831 1.15 1.61 9.24 11.07 12.83 15.09 16.75 6 0.676 0.872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76 12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30 13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82 14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32 15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80 16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27 17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72 18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16 • R cmdr: Distributions → Continuous Distributions → Chi-squared distribution → Chi-squared quantiles… (vælg upper tail) • R: qchisq(p=…,df=…,lower.tail=FALSE)

  10. Konfidens-interval for populations-variansen, s2 Et (1-)100% konfidens interval for populations variansen s2 (hvis populationen er normal fordelt) er givet som: hvor er fraktilen i 2fordelingen og er fraktilen. Bemærk: Fordi 2 fordelingen er skæv, er konfidens-intervallet for populations-variansen ikke symmetrisk omkring s2.

  11. Eksempel En maskine fylder kaffekander (med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s2 = 18,540. Giv et 95% konfidens interval for populations-variansen,2.

  12. Areal i højre hale df .995 .990 .975 .950 .900 .100 .050 .025 .010 .005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99 29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34 30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67 Eksempel C h i - S q u a r e D i s t r i b u t i o n : d f = 2 9 0 . 0 6 0 . 0 5 0.95 0 . 0 4 ) 2  0 . 0 3 ( f 0 . 0 2 0.025 0.025 0 . 0 1 0 . 0 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0  2

  13. Hypoteser og Hypotesetest • En hypotese er et udsagn om nogle karakteristika af en variabel eller mængde af variable • Fx ”Middelhøjden af Oecon studerende er 175cm.” • I en hypotesetest testes værdier, der er opstillet i en hypotese, ved at sammenligne med værdier beregnet fra data. • For eksempel kan gennemsnittet af en stikprøve af jeres højder beregnes til 172,7 cm. Selvfølgelig er 172,7cm forskelligt fra 175, skal vi derfor konkludere at middelhøjden er forskellig fra 175cm? Eller skal vi, med stikprøvefordelingen i tankerne, lade tvivlen komme hypotesen til gode?

  14. Trin I en Hypotesetest • En hypotesetest består af 5 elementer: • Antagelser • Hypoteser • Teststørrelser • p-værdi • Beslutning/konklusion

  15. I: Antagelser • Type af data: Se på om det er diskrete eller kontinuerte data. • Populationsfordeling: Se på hvilken fordeling populationen har. • Stikprøve: Hvilken metode er brugt til at indsamle data. Skal være en simpel stikprøve i de test vi bruger. • Stikprøvestørrelse: Hvor stor er den stikprøve vi har til at beregne test størrelsen?

  16. II: Hypoteser Eksempel: Nul- og alternativ-hypoteser for middelværdien • Nul-hypotesen H0: En påstand om en populationsparameter. Er sand indtil vi statistisk har ”bevist” at den er usand. • Den alternative hypotese H1: En påstand om alle situationer, der ikke er dækket af H0, dvs. det ”modsatte af H0”. • Princip: Nul-hypotesen er sand indtil det modsatte er bevist. Oecon eksempel: H0: μ= 175 vs H1: μ≠175

  17. III: Teststørrelsen • Teststørrelsen beregnes fra stikprøve data og bruges til at vurdere nul-hypotesen H0. • Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien. • Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H0, dvs. hvilke værdier, der taler imod H0- hypotesen. Oecon eksempel: Stikprøvegennemsnittet er teststørrelsen til test af H0 hypotesen μ= 175. Konkret , hvilket er kritisk for H0 , men er det bevis nok til at afvise H0 eller er det bare tilfældighedernes spil?

  18. IV:p-værdi • Uformelt: p-værdien er et mål for troværdigheden af H0 set i lyset af den aktuelle stikprøve. Jo større p-værdi, jo mere tror vi på H0. • Formelt er p-værdien af en test, sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H0 som den observerede teststørrelse, når nul hypotesen er sand. • Jo mindre p-værdi jo mere signifikant siger man testet er. • Bemærk: Selvom H0 er sand kan man godt få en lille p-værdi – og omvendt.

  19. V: Konklusion/Beslutningsregel • En beslutningsregel for en hypotese test, er en regel for under hvilke betingelser nul-hypotesen kan forkastes. • Eksempel: Betragt H0: m = 175. Beslutnings reglen kan her være at forkaste H0, når stikprøve gennemsnittet er under 170. • Typisk bruges dog p-værdien for testen. Så en beslutningsregel er for eksempel at forkaste H0, når p-værdien er mindre end 0.05. • Vi accepterer/beviser aldrig, at nul hypotesen er sand. Hvis vi ikke kan forkaste nul hypotesen, siger vi, at der ikke er nok beviser til at forkaste den. • Hvis vi forkaster nul hypotesen, kan vi konkludere, at der er beviser nok til at sige, at den alternative hypotese er sand.

  20. Signifikansniveau a • Signifikansniveaueta er et tal, således at H0 forkastes, hvis p-værdien er mindre end a. • a er normalvis 0.05 eller 0.01. • Vælges føranalysen foretages. • Hvor lille et signifikans niveau man vælger, afhænger af hvilke konsekvenser beslutningen om at forkaste H0 har. Hvis det er et spørgsmål om liv eller død, for eksempel i medicinske forsøg, vælges α meget lille. Men hvis det ”bare” er at teste om ét folketingsparti er større end et andet, kan man godt bruge et større α.

  21. Test af middelværdi (to-sidet test) • Antagelse: Test af m, X kvantitativ variabel og n>30. • Hypoteser: • Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdim0og standard afvigelse • Teststørrelse: standardisering

  22. Beregning af p-værdi • Når H0 er sand, er fordelingen af Z approksimativt standard normal-fordelt (dvs. normal-fordelt med middelværdi 0 og standard afvigelse 1). • p-værdien er sandsynligheden for at observere en teststørrelse mindst så kritisk, som den observerede, givet at H0 er sand. • I formler: P( |Z| > beregnet z værdi), svarende til sandsynligheden for at observere et gennemsnit der er længere fra m0 end , hvis H0 er sand. • Sansynligheden ovenfor bestemmes ved tabelopslag (det er derfor vi standardiserer). • Meget nemmere at se ved hjælp af et eksempel…

  23. Hypoteser: H0: m = 30 H1: mm 30 Stikprøve: n = 50 = 31.5 s = 5 Teststørrelse: p-værdi: Lille p-værdi, så H0 forkastes. Fordeling: Eksempel 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 .017 .017 0 . 2 0 . 1 0 . 0 0

  24. H0: m = 30 H1: mm 30 Stikprøve: n = 20 = 31.5 s = 5 Beregn værdien af test størrelsen og p-værdien. H0: m = 30 H1: mm 30 Stikprøve: n = 100 = 31.5 s = 5 Beregn værdien af test størrelsen og p-værdien Summe opgave

  25. Relation til konfidens-intervaller 95% konfidensinterval for m, dvs. a = 0.05: 95% konfidensinterval omkring observeret middelværdi Middelværdi under H0 0= 30 30.11 32.88 x = 31.5 Da (1-a)100% konfidensintervallet ikke overlapper m0er p-værdien mindre end a=0.05, dvs. vi forkaster H0.

  26. Hvorfor ”=” i Nul-hypotesen? • Indtil nu har vi ved en-sidet test skrevet • I det følgende skriver i H0 som • Grunden til dette, er at man på den måde ”lader tvivlen komme H0 til gode”. Dsden er vi kun interesseret i, om m er større (eller mindre hvis <) enden givet værdi - ikke hvor meget den evt. er mindre.

  27. Højresidet test (et en-sidet test) • Antagelse: Test af m, X kontinuert variabel og n>30. • Hypoteser: • Stikprøve-fordeling af når H0 er sand er approksimativ normal med middelværdi m og standard afvigelse • Teststørrelse: • p-værdien: p( Z > observeret z værdi)

  28. H0: m = 30 H1: m > 30 Stikprøve: n = 50 = 31.5 s = 5 Test størrelse: p-værdi: Lille p-værdi, så H0 forkastes. Fordeling: 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 .017 0 . 2 0 . 1 0 . 0 0 Z=2,12 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 .017 0 . 2 0 . 1 0 . 0 0=30 x Eksempel højresidet test

  29. Venstresidet test • Antagelse: Test af m, X kvantitativ variabel og n>30. • Hypoteser: • Stikprøve- fordeling af når H0 er sand er approksimativ normal med middelværdi m og standard afvigelse • Teststørrelse: • p-værdien: p( Z < observeret z værdi)

  30. H0: m = 30 H1: m < 30 Stikprøve: n = 50 = 31.5 s = 5 Test-størrelse: P-værdi: Stor p-værdi, så H0 forkastes ikke. Fordeling: 0 . 8 1-.017 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 0 Z=2,12 0 . 8 0 . 7 1-.017 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 0=30 x Eksempel venstresidet test

  31. Eksempel: Ny Cafe? • Kafe Kjeld vil starte en ny cafe i en ny by! • Erfaringen viser, at det bliver en succes, hvis gennemsnits indkomsten er mindst 300.000kr. • Det vides at SD for indkomst er 25.000kr. • En stikprøve på n = 36 indbyggere har et indkomsts- gennemsnit på 311.500kr. • Kafe Kjelds spørgsmål: Skal jeg åbne en ny cafe? • Mit spørgsmål: Hvilken hypotese vil jeg teste?

  32. Test af middelværdi for ukendt varians • Antagelse: Test af m, X normalfordelt variabel og σ² ukendt (estimeret ved s²). • Hypoteser: • Teststørrelse t er t-fordelt med (n-1) frihedsgrader: • p-værdien: P( |t| > observeret t værdi) – kan ikke bestemmes ved tabel opslag. • Venstre og højre sidet test efter samme princip som før.

  33. H0: m = 30 H1: mm 30 Stikprøve: n = 50 = 31.5 s = 5 Test størrelse: Svært at slå op i tabel. Ligger mellem 0.025 og 0.01. P-værdi: Lille p-værdi, så H0 forkastes. Fordeling: 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 .020 .020 0 . 2 0 . 1 0 . 0 0=30 x x- Eksempel

  34. H0: m = 30 H1: mm 30 Stikprøve: n = 50 = 31.5 s = 5 Test størrelse: Svært at slå op i tabel. Ligger mellem 0.025 og 0.01. I stedet for p-værdi, vælges signifikans niveau α, for eksempel α=0,05. Slå op i t-tabellen med 49 frihedsgrader under 0,025, da det er en 2-sidet test. t-værdien er cirka lig med 2.01. Da 2,12 er større end 2,01, forkastes H0. Hvis t=-2,12 skulle vi have sagt, da -2,12 er mindre end -2.01, forkastes H0. Eksempel - fortsat

  35. Hypotesetest for middelværdi i R cmdr • Statistics → Means → Single-sample t-test… Vælg mellem to- og en-sidede test • Da p-værdien mindre end 0.05 forkaster vi H0 hypotesen og accepterer H1 hypotesen, dvs. at m er forskellig fra 175. Middelværdi under H0 antal frihedsgrader t-teststørrelse p-værdi H1 hypotese

  36. Test af en Andel • Antagelse: Test af populationsandel p, når np(1-p) > 9. • Hypoteser: • Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse • Teststørrelse: • p-værdien: P( |Z| > beregnet z værdi) • Højresidet og venstresidet test efter samme princip som før.

  37. Test af Variansen • Antagelse: Test af populations variansen σ², X normal fordelt. • Hypoteser: • Teststørrelse: • P-værdi: p(|Χ²|> beregnet Χ² værdi) – kan ikke beregnes ved tabel opslag. • Højresidet og venstresidet test efter samme princip som før.

  38. Test af varians - Eksempel • H0: s2=1 • H1: s2<1 • a=0.05 , s2=0.8659, n=25 • Venstre sidet test, så H0 forkastes, hvis . • Da kan vi ikke forkaste H0. 0.05 0 13.85 20.78 • R cmdr: Distributions → Continuous Distributions → Chi-squared distribution → Chi-squared probabilities • R: pchisq(20.78,df=24) Resultat: 0.3483

  39. Opsummering: Test af middelværdi 1 • Antagelser: Kendt varians + normalfordelt population eller stor stikprøve: Z-test. • Nul-hypotese • H0: m = m0 • Teststørrelse: • Alternativ hypoteser • H1: m < m0 p-værdi = P( Z<z ) • H1: m > m0 p-værdi = P( Z>z ) • H1: m = m0 p-værdi = P( |Z|>|z| ) = 2⋅P( Z>|z| ) • Beslutning: • Hvis p-værdi < a : Afvis H0 og accepter H1. • Hvis p-værdi > a : Ej afvis H0 og ej accepter H1. Test vha. p-værdier

  40. Opsummering: Test af middelværdi 1.1 • Antagelser: Kendt varians + normalfordelt population eller stor stikprøve: Z-test • Nul-hypotese • H0: m = m0 • Teststørrelse: • Alternativ hypoteser • H1: m < m0 • Afvis H0 hvis z < -Za • H1: m > m0 • Afvis H0 hvis z > Za • H1: m = m0 • Afvis H0 hvis |z| > Za/2 Test vha. kritiske værdier

  41. Opsummering: Test af middelværdi 2 • Antagelser: Ukendt varians + normalfordelt population: t-test • Nul-hypotese • H0: m = m0 • Teststørrelse: • Alternativ hypoteser • H1: m < m0 • Afvis H0 hvis t < -t a,n-1 • H1: m > m0 • Afvis H0 hvis t > ta,n-1 • H1: m = m0 • Afvis H0 hvis |t| > ta/2,n-1 Test vha. kritiske værdier

More Related