1.82k likes | 2.58k Views
Statistik. Brogaarden 20. o g 21. januar 2014. Introduktion. Mig Kasper K. Berthelsen, statistiker kkb@math.aau.dk people.math.aau.dk/~ kkb Min arbejdsplads Institut for Matematiske Fag, AAU www.math.aau.dk Statistikgruppen
E N D
Statistik Brogaarden 20. og 21. januar 2014
Introduktion • Mig • Kasper K. Berthelsen, statistiker • kkb@math.aau.dk • people.math.aau.dk/~kkb • Min arbejdsplads • Institut for Matematiske Fag, AAU • www.math.aau.dk • Statistikgruppen • 2 professorer, 8 lektorer, 2 adjunkter, 4-6 ph.d. studerende.
Matematiske uddannelser ved AAU • To-fags-uddannelse (”Gymnasielæreruddanelsen”) • Fx. matematik og fysik, matematik og dansk… • Et-fags-uddannelse (”Anvendt matematik”) • 4 år med matematik og 1 år med ”noget andet”, • Ofte er det ene år på en ingeniør-retning. • Matematik-Økonomi – 5-årig kandidatuddannelse • Matematik-Teknologi – 5-årig kandidatuddannelse • Seneste optage er 60-65 studerende • Kandidatproduktion 5-10 studerende… må forventes at vokse
Tilbud til gymnasieelever • Studerende for en dag • Kontakt sekretær Lisbeth Grubbe grubbe@math.aau.dk • Numbers bloggen numb3rs.math.aau.dk • Masser af inspiration i mere end 200 blog-indlæg • Studiepraktik www.studiepraktik.aau.dk
Statistik – hvad er det? • Statistik er kunsten at drage en generel konklusion på baggrund af ufuldstændig information. • Det er uinteressant at finde ud af om der er (statistisk signifikant) forskel på udfaldet af to valg. Jeg kan jo bare tælle stemmerne…. • Har jeg kun lavet en rundspørge, så er det straks mere interessant. • I statistik består data af to komponenter • En systematisk variation (”signal”) • En tilfældig variation (”støj”) • Statistik handler om at fjerne støj fra data.
Eksempel på (u)statistisk problemstilling Matematik B, Studentereksamen 2012 • Ifølge hjemmesiden givblod.dker fordelingen af blodtyper i den danske befolkning som følger: • Tabellen nedenfor viser, hvorledes de 950 patienter i en bestemt lægeklinik fordeler sig på blodtyperne. • Lægeklinikken vil undersøge nulhypotesen: Lægeklinikkens patienter har samme blodtypefordeling, som den danske befolkning.
Statistik: Religionskrig • Der findes to hovedretninger indenfor statistik • Frekventiel statistik • Her er sandsynligheder baseret på frekvenser • Den klassiske metode • Bayesiansk statistik • Baserer sig på subjektive sandsynligheder • Moderne? Mere naturlig? • Der har tidligere været en vældig krig mellem de to retninger…
Mange forskellige statistiske discipliner • Survey/sprøgeskema • Overlevelsesanalyse • Longitudinelle analyser (gentagede målinger over tid) • Tidsrækkeanalyse (fx aktiekurser) • Rumlig statistik osv. osv. Anvendelsesområder: • Biostatistik / biometri • Økonometri • Psykometriosvosv
Hvad så med mig…? • Jeg beskæftiger mig med rumlig statistik. • Mest punktprocesser:”Støj” = placering • Mindre geostatistik: ”Støj” = målte værdier
Hvad så med mig…? • Simulationsbaseret inferens • Særligt Markov kæde Monte Carlo • Formål: Skabe en sekvens af afhængige stokastiske variable, der har de rette egenskaber i det lange løb…
En population og en stikprøve • Population • Konkret: Stemmeberettigede i Danmark • Abstrakt: Alle målinger af lysets hastighed • Stikprøve • Vi udvælger (tilfældigt) elementer fra populationen. Kan gøres på mange måder. • Ide: Vi vil gerne udtale os om hele populationen med udgangspunkt i stikprøven. • Princip: Vi skal gøre dette med tanke på, at stikprøven er tilfældig. Vi kunne have været uheldige…
Stikprøveudtagning • Tilfældig • Alle elementer i populationen har lige stor sandsynlighed for at blive udvalgt. • Eksempel: CPR-registret. • Stratificeret • Populationen inddeles i undergrupper (strata). • Man udtager en tilfældig stikprøve fra hver gruppe. • Nyttig metode, hvis man vil sikre at alle delgrupper er repræsenteret i stikprøven. • Eksempel: Sammenligning af hjemløse og resten.
Stikprøveudtagning • Cluster sampling. • Man vælger et antal ”steder” i befolkningen og sampler i nærheden. • Eksempel: Tilfældige veje i en kommune udvælges, hvorefter alle på de vej bliver spurgt. • Problem: Systematiske fejl • I den virkelige verden opstår mange statistiske fejl allerede i indsamlingsfasen… • Ofte introduceres systematisk fejl – såkaldt bias.
The Literary Digest Poll (1936) Ikke-biased stikprøve Ikke-biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Biased stikprøve Folk, der har telefon og/eller bil og/eller læser Digest. Republikanere Demokrater Population Literary Digest resultat: Alfred Landon slår Frenklin Roosevelt stort. Faktiske resultat: Landskredssejr til Roosevelt.
Andre slags bias • Formulering af spørgsmål har betydning for svar: • In favour of new gasolinetax: 12% yes • In favour of new gasolinetax to reduce US dependence on foreignoil: 55% yes • In favour of new gasolinetax to reduce global warming: 59% yes
Andre slags bias • Rækkefølgen af spørgsmål.Under den kolde krig blev følgende to spørgsmål stillet: • Do youthink the U.S. should let Russian newspaper reporters comehere and report back whatevertheywant? • Do youthinkRussiashouldlet American newspaper reporters comein and reportback whatevertheywant? • 36% svarer ja til A. hvis det er første spørgsmål. • 73% svarer ja til A. hvis det er andet spørgsmål.
Andre slags bias • I en amerikansk undersøgelse afhang svarene i et telefoninterview af, den interviewedes forestilling om interviewerens etniske tilhørsforhold. • Is the US society fair to everyone? 14% / 31% • I medicinske forsøg: Alle der oplever bivirkninger dropper ud. Konklusion: Ingen bivirkninger… • Medicinsk vs Kirurgisk behandling. Svage patienter udsættes ikke for den kirurgiske behandling.
Sandsynlighed: Opvarmning • Udfald • Resultatet af et ”eksperiment” kaldes et udfald. • Eksempler: • Eksperiment: Vælg en partileder / mål lysets hastighed • Udfald: Lars / 299791 km/s • (stikprøver fra hvilke populationer…?) • Hændelse • En hændelse er en mængde af udfald. • Eksempler: • Vælge en kvinde / Hastighedsmåling er ml. 299790 km/s og 299793 km/s
Sandsynlighed • Sandsynlighed • Sandsynligheden for en hændelse A er andelen af gange eksperimentet resulterer i hændelsen Ai det lange løb. • Notation • P(A) betegner sandsynligheden for hændelsen A. • Det behøver ikke være sådan: Hva’ nu hvis… • P(Bayern München vinder CPL) • P(Det regner i morgen) • Eksempler på subjektive sandsynligheder
Sandsynlighed: Egenskaber og regneregler • 0 ≤P(A) ≤ 1 • P(A) = 0 - hændelsen Aindtræffer aldrig. • P(A) = 1 - hændelsen Aindtræffer hver gang. • P( ikkeA) = 1 – P(A) • Hvis Aikke indtræffer, så må ”ikke A” nødvendigvis indtræffe • Hvis hændelserne A og B ikke kan indtræffe samtidigt gælder: P( AUB ) = P(A) + P(B)
Betinget sandsynlighed • Betinget sandsynlighed Hvis A og B er mulige udfald, så gælder Hvilket kan omskrives til multiplikationsreglen: P(A∩B) = P(A)P(B | A)
Uafhængighed • Uafhængighed To hændelser A og B er uafhængige hvis og kun hvis hvilket kan omskrives til P( B| A ) = P(B)
Stokastisk variabel • Stokastisk variabel • Antag vi kan knytte en talværdi til hvert udfald af et eksperiment. Hvert eksperiment fører således til et tilfældigt tal. • Dette tilfældige tal kaldes en stokastisk variabel. X 0 1 5
Diskret stokastisk variabel (SV) • En stokastisk variabel X er diskret, hvis den kun kan tage et tælleligt antal værdier. Typisk 0, 1, 2, 3,… • Lad P(k) betegne sandsynligheden for at den stokastiske variabel X tager værdien k. Dvs. P(1) = ”sandsynligheden for y tager værdien 1”. • P(x) skal opfylde: • 0 ≤ P(x) ≤ 1 for alle x. • Salle xP(x) = 1
Kontinuert stokastisk variabel • Hvis y er en kontinuert stokastisk variabel kan den tage alle værdier i et interval. • Vi angiver sandsynligheden for at X falder i et interval [a ; b] ved et areal under en kurve. Tæthedsfunktion f(x) P(1 ≤ X ≤ 2) = Areal
Tæthedsfunktionen • (Sandsynligheds)Tæthedsfunktion f(x)
Middelværdi og varians for SV • Middelværdi • Varians
Normalfordelingen • Normalfordelingen • Klokkeformet og (fuldstændigt) karakteriseret ved middelværdi m og standardafvigelse s. • Notation: x ~ N(m,s2) betyder at y er en kontinuert stokastisk variabel, der er normalfordelt medmiddelværdi m og varians s2. • Tæthedsfunktionen for normalfordelingen er • Egenskaber: • Symmetrisk omkring m • f(x) > 0 for alle x. 95% m m-1.96s m+1.96s
Standardafvigelsen σ når X~N(μ,σ2) • Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien • Cirka 95% af alle observationer ligger indenfor 1.96 standard afvigelser fra middelværdien • Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien
Chebychevs ulighed (Tjebysjov?) • Lad X være en stokastisk variabel med middelværdi m og varians s2>0. • Da gælder følgende ulighed • Eksempel:k= 2 • Dvs. sandsynligheden for at afvige mere end to standardafvigelser fra middelværdien er altid mindre en 25%.
Interessante størrelser • I statistik optræder masser af stokastiske variable. • Ofte er vi interesserede i at udregne en eller flere af følgende tre størrelser • Middelværdi m = E[X] • Variansen s2 = Var(X) = E[(X-m)2] • Sandsynlighed p =P(X ∈A) • Dette kan være svært - eller umuligt. • En løsning er (computer) simulationer.
Simpel Monte Carlo • X stokastisk variabel ~ P • Middelværdi:E[X] = m • Antag X1, X2,…, Xn ~ Pog uafhængige. • Udregn stikprøvegennemsnit • Da er et Monte Carlo estimat af m. • Kan udvides til afhængige X1, X2,…, Xn • Hvis X1, X2,… er en Markov kæde, så kaldes det MCMC. • MCMC = Markovchain Monte Carlo.
Middelværdier er (næsten) alt! • Antag vi er interesseret i en sandsynlighed p. • Vi har Bernoulli variabel X som vi kan simulere P(X = 1) = pogP(X = 0) = 1 - p • Middelværdien: • Simuler uafh.: X1, X2,…, Xn ~ Ber(p) • Monte Carlo estimat af p:
Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være nuafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af Tommelfingerregel: n = 30 er nok til en god tilnærmelse. Praktisk omskrivning: Dvs. Monte Carlo estimatet er tilnærmet normalfordelt.
Simulation i R • Man kan simulere en normalfordeling • x = rnorm(n=1000, mean=198, sd=10) • mean(x) ## stikprøvegennemsnit[1] 198.3801 • sd(x) ## stikprøvestandardafvigelse[1] 10.02518 • hist(x) ## histogram
Lidt flere plot i R • hist(x,freq=FALSE) • curve(dnorm(x,mean=198,sd=10), 150,250,add=TRUE) • Den kumulerede fordelingsfunktion (F(x) = P(X≤x)) • curve(pnorm(x,mean=198,sd=10), 150,250)
Monte Carlo eksempel i R • Antag X ~N(198,100) • Find P(X<190) • Simuler stikprøve fra normalfordeling: • x = rnorm(n=1000,mean=198,sd=10) • mean(x<190) ## falsk = 0 / sand = 1[1] 0.207 • Korrekte svar findes vha. • pnorm(q=190,mean=198,sd=10) ## kumulerede ford.[1] 0.2118554
For at illustrere CLT kan vi nemt gentage Monte Carlo simulationen 2500 gange: • > xbar= replicate(2500,mean(rnorm(n=1000,mean=198,sd=10)<190)) • > hist(xbar,breaks=25,freq=FALSE)
c2-fordelingen • Antag Z1,Z2,…,Zk er k uafhængige standard normalfordelte stokastiske variable, dvs. Zi ~ N(0,1). • Definer Da følger W en c2-fordeling med k frihedsgrader. • Tæthedsfunktionen for c2-fordeling med kfrihedsgrader er
c2-fordelingen df= 5 df= 10 • c2-fordeling… • antager kun positive værdier • er højreskæv df= 10 • facon er givet ved antal frihedsgrader (df = degrees of freedom) • har middelværdi m = dfog varians s2 = 2df.
R • R er et open source statstikprogram og programmerings-sprog introduceret i 1993. • Seneste version er 3.0.2 • R kan downloades på www.r-project.org • R er i udgangspunktet uden peg-og-klik • Mere end 2000 pakker (udvidelser a la et plugin) • I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux. • For at få en smartere brugerflade anvender vi RStudio
RStudio • Sådan ser RStudio typisk ud første gang man starter det. • Nederste vestre vindue er hvor man snakker direkte med R vha. tekst-kommandoer.
RStudio – lidt opsætning • Det er nyttigt at ændre R’s standard-mappe. • Vælg Tools → Options • Under ‘Default workingdirectory..’ vælg den mappe hvor I vil gemme filer relateret til R (fx. data)
R hjælp • Man kan få hjælp vha. ?<kommando>> ?sum • Man kan få RStudio til at gætte vha. Tab-knappen • Man kan også søge efter hjælp vha. > help.search("plot")
Statistisk test: Motivation (based on a true story…) • Setup: • Vi vil undersøge om der er sammenhæng mellem køn og om man gennemfører sit studie på normeret tid! • Vi har spurgt 2000 (fiktive) AAU kandidater. • Opsummering af data i en kontingenstabel • Er der en sammenhæng ml. køn og rettidighed?
Hypotesetest • Vi vil afgøre spørgsmålet vha. et såkaldt hypotesetest. • Denne testteori er udvikle af Neyman og Pearson i 30erne. • Grundlæggende ide: • Vi inddeler verden i to • Nul-hypotesen (H0) (Der er ingen sammenhæng) • Alternativ-hypotesen (H1) (Der er en sammenhæng) • Princip: • Nul-hypotesen er sand indtil det modsatte er ”bevist”. • Alle udregninger foretages under antagelse af H0. • Tvivlen skal altid komme nul-hypotesen til gode.
Forventede antal under H0 • Nu tager vi udgangspunkt i at H0 er sand – dvs. ingen sammenhæng! • Hvilke antal havde vi forventet, hvis H0 var sand? • Uden sammenhæng burde andelen af ”På normeret tid” være den samme blandt mænd og kvinder, dvs. 64.25%. • Da der er både 1000 mænd og kvinder ville vi forvente 642.5 ”rettidige” kandidater.
Observerede vs. Forventede antal • En sammenligning af forventede og observerede antal: • Er de observerede antal for langt fra de forventede til at vi kan tro på H0? Observeret antal Forventet antal
Observerede vs. Forventede antal Observeret antal Forventet antal • Vi måler ”afstanden” mellem observerede og forventede vha. O3 E3
Resultat og Konklusion • Resultat • Så ”afstanden” en 48,33… er det for stor? • Tommelfinger-regel(for 2x2 tabel): • Afstanden er for stor hvis c2 > 3.84. • Konklusion: • Afstanden er for stor! Vi tror ikke på ”H0:Ingen sammenhæng”. • Med andre ord: Der er en sammenhæng! • Mere præcist: Der er en statistisk signifikantsammenhæng.