statistiske test
Download
Skip this Video
Download Presentation
Statistiske test

Loading in 2 Seconds...

play fullscreen
1 / 30

Statistiske test - PowerPoint PPT Presentation


  • 70 Views
  • Uploaded on

Statistiske test. Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside : http://ak.aau.dk/jfj. Kontinuerte fordelinger Definition: Tæthedsfunktion En sandsynlighedstæthedsfunktion på R er en integrabel funktion f : R →[0;∞[ hvor = 1.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Statistiske test' - trevor-curtis


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
statistiske test

Statistiske test

Silkeborg efteråret 2009

Jens Friis, AAU

Hjemmeside : http://ak.aau.dk/jfj

slide2

Kontinuerte fordelinger

Definition: Tæthedsfunktion

En sandsynlighedstæthedsfunktion på R er en integrabel funktion f : R→[0;∞[

hvor =1

Definition: Kontinuert fordeling

En kontinuert sandsynlighedsfordeling er en sandsynlighedsfordeling,

som har en sandsynlighedstæthedsfunktion f :

funktionen

kaldesfordelingsfunktionen for en kontinuert fordeling på R

Definition:middelværdi ,varians og spredning

Lad X være en stokastisk variabel med tæthedfunktionf(x)

Middelværdi : μ=E(X)=

Varians : σ2=E((X-μ)2)=

Spredningen er σ

slide3

Normalfordelingen er det klassiske eksempel på en kontinuert

fordeling. Her er tæthedsfunktionen givet ved

Middelværdien er μ og spredningen σ. Den stokastiske variabel med denne

tæthedsfunktion siges at være N(μ, σ2) –fordelt.

Den normalfordelte stokastiske variabel, som har middelværdi

0 og varians 1, kaldes sædvanligvis U, og den tilhørende tæt-

hedsfunktion for φ , dvs. at

Den tilsvarende fordelingsfunktion kaldes forФ, dvs. at

slide4

Der gælder følgende :

Man kan derfor klare sig med kendskab til værdier af Ф, som er

tabellagt og indlagt i de fleste computersystemer.

Undersøgelse af om et observationssæt kan betragtes som

Normalfordelt: Apgar- fødselsvægt (SPSS) eller

BMI – Geogear (SPSS)

slide5

Man kunne også have indført normalfordelingen således :

Definition

En stokastisk variabel U siges at være u-fordelt eller N(0 , 1) -fordelt,

hvis tæthedsfunktionen for U er givet ved

Sætning: E(U) = 0 og V(x) = 1

Definition

En stokastisk variabel X = μ + σU, hvor μ R og σ R+ , siges at være

N(μ , σ2 ) -fordelt

Sætning: E(X) = μ og V(X) = σ2

slide6

Sætning

Den N(μ , σ2 ) –fordelte stokastiske variabel X har tæthedsfunktionen

Bevis:

hvorfor er normalfordelingen interessent
Hvorfor er normalfordelingen interessent?

Ja, det er den, fordi gennemsnittet af næsten alle målinger tilnærmelsesvis er normalfordelt.

Mere præcist, så gælder den centrale grænseværdisætning :

Man kan vise, at hvis X er b(n,p)-fordelt, er X tilnærmelsesvis normalfordelt N(µ, σ2) for n→ ∞ ,

hvor µ = np og σ2 = np(1-p) .

Hvad var det nu lige binomialfordelingen er for noget ?

binomialfordelingen
Binomialfordelingen

Et basiseksperiment beskrives af et udfaldsrum E med to udfald

succes (s) og fiasko (f), dvs.

E={s,f}, hvor P(s)=p og P(f)=1-p.

Basiseksperimemtet gentages n gange uafhængigt af hinanden.

Hvis X betegner antal succes i de n gentagelser gælder der

Sætning: E(X)=np ; V(X)=np(1-p)

Eks. 5 uafhængige kast med en terning. X er antal 6’ere.

Se også SPSS: poisBin6indlagte.sav

slide9

Heraf følger , at hvis X binomialfordelt b(n, p) er

tilnærmelsesvis N( 0, 1)-fordelt

Lad os nu endelig komme til χ2 -fordelingen.

Definition

Lad X1, X2, ……Xn er indbyrdes uafhængige N(0, 1) –fordelte stokastiske

variable.

Summen siges at være χ2- fordelt med n frihedsgrader.

Sætning

En stokastisk variabel, som er χ2- fordelt med n frihedsgrader, har tæthedsfunktionen

, hvor

slide10

Antag at X ̴ b(p, n) ̴ ≈ N(0, 1) ̴ ≈ χ2 , f = 1

Hvis man har en stikprøve, som er binomialfordelt (fx stikprøve med svarmulighederne

ja/nej kan man benytte et χ2 -test, hvis man ønsker at teste hypotesen

Ho : p = p0 . Den alternative hypotese er H1 : p ≠ p0

som tilnærmelsesvis er χ2 –fordelt med 1 frihedsgrad. Dvs reglen er, at man udregner

Det er klart, at store værdier er kritiske for accept af hypotesen.

accept af hypoteser
Accept af hypoteser

Man arbejder med et såkaldt signifikansniveau, som sædvanligvis er 5% eller 1%.

Signifikansniveauet er sandsynligheden for at forkaste en rigtig hypotese. Man kan da

begå to fejl :

type 1 : forkaste en rigtig hypotese

type 2: acceptere en hypotese selv om den er forkert

For at kunne bedømme et tests styrke skal man studere sandsynligheden for at begå

fejl af type 2. Det er ofte ret kompliceret, og indgår normalt ikke i indledende statistik-

kurser.

slide12

Eksempel på χ2 -test med 1 frihedsgrad

I en meningsmåling har man spurgt 1500 vælgere om de vil stemme på

Socialdemokratiet, hvis der var valg nu. Resultatet blev

Afviger dette resultat signifikant fra hypotesen, at 1/3 vil stemme på partiet?

Formuleret mere matematisk: X betegner antal stemmer på partiet og modellen er,

at X ̴ b(1500, p) og nulhypotesen er H0 : p = 1/3 . H1 : p ≠ 1/3

Følgende tabel udregnes :

Da 95%’s fraktilen er 3,84 accepteres hypotesen på et signifikansniveau på 5% .

multinomialfordelingen
Multinomialfordelingen

X = (X1, X2, ……….Xk) siges, at være multinomialfordelt b(n,p1,p2….pk) ,

hvis p1+p2+…..pk=1 og

, hvor x1+x2+…..xk=n

På samme måde som ved binomialfordelingen kan man se på et basiseksperiment

som gentages n gange uafhængigt af hinanden. I stedet for succes eller fiasko er

der k svarmuligheder. Dvs. at

X1 er antal svar på kategori 1

X2 ” - - - - - - - - - - - - - - ” 2

. .

. .

Xk ”- - - - - - - - - - - - - - -” k

slide14

Som ved binomialfordelingen kan man teste, at de enkelte sandsynlighedsparametre antager givne værdier, dvs. at modellen er

X=(X1, X2, ……….Xk) er multinomialfordelt b(n,p1,p2….pk) , og nulhypotesen er

H0 : p1 = p01, p2 = p02,……..pk = p0k og

H1 : p1 ≠ p01, p2 ≠ p02,……..pk ≠ p0k

Igen kan man lave et χ2 - test , her med k-1 frihedsgrader. Igen er det

En tommelfingerregel er, at for at anvende testet skal alle forventede værdier

være større end 5.

slide15

Eksempel :

Mendel avlede bønner, som gav følgende udbytte

Da de stammede fra en krydsning af dobbelte heterozygotiske bønner, skulle

udbyttet være i forholdet 9 : 3 : 3 : 1.

Som model kan anvendes en multinomialfordeling b(556, p1, p2, p3, p4) .

Nulhypotesen er

H0 :

Følgende tabel udregnes :

slide16

Eksempel fortsat: χ2 – testet med 3 frihedsgrader udregnes :

Da 95%’s fraktilen er 7,81 accepteres hypotesen på et signifikansniveau på 5%.

slide17

Sammenligning af flere multinomialfordelinger eller test for uafhængighed

Model :

X1 = (X11, X12, ……….X1k) ̴ b(n1,p11,p12….p1k)

X2 = (X21, X22, ……….X2k) ̴ b(n2,p21,p22….p2k)

.

.

Xm = (Xm1, Xm2, ……..Xm2) ̴ b(nm,pm1,pm2….pmk)

Nulpypotese :

H0 : p11 = p21 = ….. = pm1

p12 = p22 =….. = pm2

.

.

p1k = p2k = …. = pmk

H1 : forskellige pr. kategori

Som test anvendes igen :

som er χ2 –fordelt med f = (m-1)(k-1) frihedsgrader .

Også her bør de forventede værdier være større end 5.

slide18

Lad os lige se på en kontingenstabel over de observerede :

Læg mærke til, at det forventede antal i celle (i,j) er

Man udregner søjlefrekvens gange rækkefrekvens gange samlet antal,

altså tester man uafhængighed af de to inddelingskreterier.

slide19

Eksempel : For mange år siden lavede Dansk Skakunion en læserundersøgelse for deres

medlemsblad. Man spurgte bl.a. om

Hvad foretrækker du? (sæt kryds)

1. at partierne bringes adskilt fra referater og nyheder

2. at partierne bringes sammen med referater og nyheder

3. ved ikke.

Spillerne blev inddelt i spillerstyrke og resultatet blev:

slide20

Hvis man vil teste om svarene er uafhængig af spillerstyrke er de fælles

skøn over p’erne

Tabellen med de forventede kan udregnes :

Idet

Da χ2 = 14,98 og f=(4-1)(3-1)=6 og 95%’s fraktilen er 12,59 forkastes hypotesen

Med et signifikansniveau på 5%

slide21

Eksempel : for en del år siden undersøgte man om flere gange straffede personer

havde en én-ægget eller to-æggettvillinge bror/søster. Resultatet blev :

H0 : fordelingen på kriminel/ikke kriminel ed den samme for én- og to ægget.

De forventede bliver

Χ2 = 13,02 , f = (2-1)(2-1) = 1 . Da 95%’s fraktilen er 3,84 forkastes hypotesen

med et signifikans på 5%. Da 99%’s fraktilen er 6,63 kan også forkaste på et

signifikansniveau på 1%.

slide22

Hvorfor er der det antal frihedsgrader ?

Ved hjælp af den såkaldte spaltningssætning kan man vise :

Hvis X1, X2, X3 …….,Xn er N(0,1) - fordelte, og der k lineære bånd mellem dem

er

χ2 – fordelt med n - k frihedsgrader

I tilfældet med en m x k tabel er der

m∙k – k – m + 1 = (m – 1) (k – 1) frihedsgrader

Beviser for denne sætning ligger langt ud over gymnasieniveau.

Et sidste eksempel : rygning og apgar-tal : vha. SPSS

slide23

u-test ved normalfordelte observationer.

Lad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske

variable. Der gælder da, at

er N(μ, , σ2/n) – fordelt .

Har man derfor et observationssæt x1, x2, ……xn , som antages at være

N(μ, σ2) – fordelt, hvor σ2 er kendt, kan hypotesen

H0 : μ = μ0

med H1 : μ ≠ μ0

testes med teststørrelsen , som under H0 er N(0, 1) – fordelt.

Acceptområder er mellem fraktilen og fraktilen,

hvor er signifikansniveauet.

slide24

Nu er det sjældent, at man kender variansen i et observationssæt. Der er der oftest

tale om et approksimativt u-test.

Eks. I en meningsmåling har man spurgt 1500 vælgere om de vil stemme på

Socialdemokratiet, hvis der var valg nu. Resultatet blev

Afviger dette resultat signifikant fra hypotesen, at 30% vil stemme på partiet?

Formuleret mere matematisk: X betegner antal stemmer på partiet og modellen er,

at X ̴ b(1500, p) og nulhypotesen er H0 : p = 0,30 . H1 : p ≠ 0,30

Vi ved at under H0 er

X er approksimativt - fordelt.

Teststørrelsen udregnes

Da 97,5%’s fraktilen er 1,96 accepteres hypotesen på et signifikansniveau på 5%.

slide25

t-test ved normalfordelte observationer.

Lad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske

variable. Der gælder da, at

er N(μ, , σ2/n) – fordelt .

Har man derfor et observationssæt x1, x2, ……xn , som antages at være

N(μ, σ2) – fordelt, hvor σ2 er ukendt, skal både μ og σ2 estimeres.

Har man et konkret observationssæt x1, x2, ……xn , er estimatet

for μ : og

for σ2 :

Laver man en tilsvarende teststørrelse som ved u-testet, har man følgende situation:

slide26

Hypotesen

H0 : μ = μ0

med H1 : μ ≠ μ0

ønskes testet.

Teststørrelsen bliver

Det ses, at er en stokastisk variabel, og derfor er t ikke

normalfordelt. Man kan vise, at er σ2χ2 - fordelt med

n-1 frihedsgrader.

Testoren t følger en såkaldt t-fordeling med n-1 frihedsgrader. t-fordelingen

konvergere mod N(0, 1) – fordelingen for n gående mod uendelig. t-fordelingens

tæthedsfunktion er også symmetrisk om 0.

Ellers fungerer alt som ved u-testet.

slide27

Eksempel: Ved produktion af piller har man målt nicotamid-indholdet i 20 piller.

Indholdet skal være 25mg. Ved stikprøven på 20 piller fik man følgende resultater:

Model : Xi ̴ N(μ, σ2) for i=1 til 20 er uafhængige stokastiske variable.

H0 : μ = 25 , H1 : μ≠ 25

Parametrene estimeres

= 24,799 ; s2 = 1,5187

Teststørrelsen bliver

Da 2,5%’s fraktilen er -2,093 for 19 frihedsgrader, accepters hypotesen.

slide28

Sammenligning af to normalfordelte obsevationsrækker.

På 13 hunde har man målt ph-værdien i arterielt blod før og efter indåndingen af CO2.

Ændrer indåndingen af CO2ph-værdien?

Nr normal CO2 differens

Model for differensen:

Xier uafh. N(μ, σ2)- fordelt for i=1,2…13

H0 : μ = 0 ; H1 : μ≠ 0

Estimater :

= 0,1838 s2 = 0,014176

Teststørrelsen udregnes

1 7,42 7,26 0,16

2 7,52 7,30 0,22

3 7,36 7,26 0,10

4 7,43 7,39 0,04

5 7,43 7,38 0,05

6 7,15 6,69 0,46

7 7,50 7,32 0,18

8 7,34 7,26 0,08

9 7,45 7,23 0,22

10 7,42 7,06 0,36

11 7,53 7,34 0,19

12 7,48 7,28 0,20

13 7,42 7,29 0,13

Da 97,5%’s fraktilen er 2,179 for 12 frihedsgrader forkastes hypotesen.

99,5%’s fraktilen er 3,055 og hypotesen vil også blive forkastet på 1%’s signifikansniveau.

slide29

Lineær regression

Antag at Yi for i = 1 til n er uafhængige N(μi, σ2) -fordelte således at

Man kan vise at estimaterne for parametrene er

Man kan også vise, at estimatoren for β er - fordelt.

Man kan derfor teste hypotesen H0 : β = β0 med teststørrelsen

som er t-fordelt med n-2 frihedsgrader under H0 .

Hvis β0 = 0 tester man uafhængighed af x og y værdierne.

slide30

Eksempel : Man for 28 patienter målt kreatininindholdet i blodet før og efter

dødens indtræden. Er der en sammenhæng? Dataene kan ses i en excelfil.

Der er en pæn lineær sammenhæng og parametrene estimeres.

Man vil gerne teste hypotesen H0 : β = 1

som er t-fordelt med 26 frihedsgrader. Da 97,5%’s fraktilen er 2,056

accepteres hypotesen.

Dataene er analyseret vha. SPSS : kreatinin.sav

ad