1 / 182

Statistik

Statistik. Brogaarden 20. o g 21. januar 2014. Introduktion. Mig Kasper K. Berthelsen, statistiker kkb@math.aau.dk people.math.aau.dk/~ kkb Min arbejdsplads Institut for Matematiske Fag, AAU www.math.aau.dk Statistikgruppen

kacia
Download Presentation

Statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik Brogaarden 20. og 21. januar 2014

  2. Introduktion • Mig • Kasper K. Berthelsen, statistiker • kkb@math.aau.dk • people.math.aau.dk/~kkb • Min arbejdsplads • Institut for Matematiske Fag, AAU • www.math.aau.dk • Statistikgruppen • 2 professorer, 8 lektorer, 2 adjunkter, 4-6 ph.d. studerende.

  3. Matematiske uddannelser ved AAU • To-fags-uddannelse (”Gymnasielæreruddanelsen”) • Fx. matematik og fysik, matematik og dansk… • Et-fags-uddannelse (”Anvendt matematik”) • 4 år med matematik og 1 år med ”noget andet”, • Ofte er det ene år på en ingeniør-retning. • Matematik-Økonomi – 5-årig kandidatuddannelse • Matematik-Teknologi – 5-årig kandidatuddannelse • Seneste optage er 60-65 studerende • Kandidatproduktion 5-10 studerende… må forventes at vokse

  4. Tilbud til gymnasieelever • Studerende for en dag • Kontakt sekretær Lisbeth Grubbe grubbe@math.aau.dk • Numbers bloggen numb3rs.math.aau.dk • Masser af inspiration i mere end 200 blog-indlæg • Studiepraktik www.studiepraktik.aau.dk

  5. Statistik – hvad er det? • Statistik er kunsten at drage en generel konklusion på baggrund af ufuldstændig information. • Det er uinteressant at finde ud af om der er (statistisk signifikant) forskel på udfaldet af to valg. Jeg kan jo bare tælle stemmerne…. • Har jeg kun lavet en rundspørge, så er det straks mere interessant. • I statistik består data af to komponenter • En systematisk variation (”signal”) • En tilfældig variation (”støj”) • Statistik handler om at fjerne støj fra data.

  6. Eksempel på (u)statistisk problemstilling Matematik B, Studentereksamen 2012 • Ifølge hjemmesiden givblod.dker fordelingen af blodtyper i den danske befolkning som følger: • Tabellen nedenfor viser, hvorledes de 950 patienter i en bestemt lægeklinik fordeler sig på blodtyperne. • Lægeklinikken vil undersøge nulhypotesen: Lægeklinikkens patienter har samme blodtypefordeling, som den danske befolkning.

  7. Statistik: Religionskrig • Der findes to hovedretninger indenfor statistik • Frekventiel statistik • Her er sandsynligheder baseret på frekvenser • Den klassiske metode • Bayesiansk statistik • Baserer sig på subjektive sandsynligheder • Moderne? Mere naturlig? • Der har tidligere været en vældig krig mellem de to retninger…

  8. Mange forskellige statistiske discipliner • Survey/sprøgeskema • Overlevelsesanalyse • Longitudinelle analyser (gentagede målinger over tid) • Tidsrækkeanalyse (fx aktiekurser) • Rumlig statistik osv. osv. Anvendelsesområder: • Biostatistik / biometri • Økonometri • Psykometriosvosv

  9. Hvad så med mig…? • Jeg beskæftiger mig med rumlig statistik. • Mest punktprocesser:”Støj” = placering • Mindre geostatistik: ”Støj” = målte værdier

  10. Hvad så med mig…? • Simulationsbaseret inferens • Særligt Markov kæde Monte Carlo • Formål: Skabe en sekvens af afhængige stokastiske variable, der har de rette egenskaber i det lange løb…

  11. En population og en stikprøve • Population • Konkret: Stemmeberettigede i Danmark • Abstrakt: Alle målinger af lysets hastighed • Stikprøve • Vi udvælger (tilfældigt) elementer fra populationen. Kan gøres på mange måder. • Ide: Vi vil gerne udtale os om hele populationen med udgangspunkt i stikprøven. • Princip: Vi skal gøre dette med tanke på, at stikprøven er tilfældig. Vi kunne have været uheldige…

  12. Stikprøveudtagning • Tilfældig • Alle elementer i populationen har lige stor sandsynlighed for at blive udvalgt. • Eksempel: CPR-registret. • Stratificeret • Populationen inddeles i undergrupper (strata). • Man udtager en tilfældig stikprøve fra hver gruppe. • Nyttig metode, hvis man vil sikre at alle delgrupper er repræsenteret i stikprøven. • Eksempel: Sammenligning af hjemløse og resten.

  13. Stikprøveudtagning • Cluster sampling. • Man vælger et antal ”steder” i befolkningen og sampler i nærheden. • Eksempel: Tilfældige veje i en kommune udvælges, hvorefter alle på de vej bliver spurgt. • Problem: Systematiske fejl • I den virkelige verden opstår mange statistiske fejl allerede i indsamlingsfasen… • Ofte introduceres systematisk fejl – såkaldt bias.

  14. The Literary Digest Poll (1936) Ikke-biased stikprøve Ikke-biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Biased stikprøve Folk, der har telefon og/eller bil og/eller læser Digest. Republikanere Demokrater Population Literary Digest resultat: Alfred Landon slår Frenklin Roosevelt stort. Faktiske resultat: Landskredssejr til Roosevelt.

  15. Andre slags bias • Formulering af spørgsmål har betydning for svar: • In favour of new gasolinetax: 12% yes • In favour of new gasolinetax to reduce US dependence on foreignoil: 55% yes • In favour of new gasolinetax to reduce global warming: 59% yes

  16. Andre slags bias • Rækkefølgen af spørgsmål.Under den kolde krig blev følgende to spørgsmål stillet: • Do youthink the U.S. should let Russian newspaper reporters comehere and report back whatevertheywant? • Do youthinkRussiashouldlet American newspaper reporters comein and reportback whatevertheywant? • 36% svarer ja til A. hvis det er første spørgsmål. • 73% svarer ja til A. hvis det er andet spørgsmål.

  17. Andre slags bias • I en amerikansk undersøgelse afhang svarene i et telefoninterview af, den interviewedes forestilling om interviewerens etniske tilhørsforhold. • Is the US society fair to everyone? 14% / 31% • I medicinske forsøg: Alle der oplever bivirkninger dropper ud. Konklusion: Ingen bivirkninger… • Medicinsk vs Kirurgisk behandling. Svage patienter udsættes ikke for den kirurgiske behandling.

  18. Sandsynlighed: Opvarmning • Udfald • Resultatet af et ”eksperiment” kaldes et udfald. • Eksempler: • Eksperiment: Vælg en partileder / mål lysets hastighed • Udfald: Lars / 299791 km/s • (stikprøver fra hvilke populationer…?) • Hændelse • En hændelse er en mængde af udfald. • Eksempler: • Vælge en kvinde / Hastighedsmåling er ml. 299790 km/s og 299793 km/s

  19. Sandsynlighed • Sandsynlighed • Sandsynligheden for en hændelse A er andelen af gange eksperimentet resulterer i hændelsen Ai det lange løb. • Notation • P(A) betegner sandsynligheden for hændelsen A. • Det behøver ikke være sådan: Hva’ nu hvis… • P(Bayern München vinder CPL) • P(Det regner i morgen) • Eksempler på subjektive sandsynligheder

  20. Sandsynlighed: Egenskaber og regneregler • 0 ≤P(A) ≤ 1 • P(A) = 0 - hændelsen Aindtræffer aldrig. • P(A) = 1 - hændelsen Aindtræffer hver gang. • P( ikkeA) = 1 – P(A) • Hvis Aikke indtræffer, så må ”ikke A” nødvendigvis indtræffe • Hvis hændelserne A og B ikke kan indtræffe samtidigt gælder: P( AUB ) = P(A) + P(B)

  21. Betinget sandsynlighed • Betinget sandsynlighed Hvis A og B er mulige udfald, så gælder Hvilket kan omskrives til multiplikationsreglen: P(A∩B) = P(A)P(B | A)

  22. Uafhængighed • Uafhængighed To hændelser A og B er uafhængige hvis og kun hvis hvilket kan omskrives til P( B| A ) = P(B)

  23. Stokastisk variabel • Stokastisk variabel • Antag vi kan knytte en talværdi til hvert udfald af et eksperiment. Hvert eksperiment fører således til et tilfældigt tal. • Dette tilfældige tal kaldes en stokastisk variabel. X 0 1 5

  24. Diskret stokastisk variabel (SV) • En stokastisk variabel X er diskret, hvis den kun kan tage et tælleligt antal værdier. Typisk 0, 1, 2, 3,… • Lad P(k) betegne sandsynligheden for at den stokastiske variabel X tager værdien k. Dvs. P(1) = ”sandsynligheden for y tager værdien 1”. • P(x) skal opfylde: • 0 ≤ P(x) ≤ 1 for alle x. • Salle xP(x) = 1

  25. Kontinuert stokastisk variabel • Hvis y er en kontinuert stokastisk variabel kan den tage alle værdier i et interval. • Vi angiver sandsynligheden for at X falder i et interval [a ; b] ved et areal under en kurve. Tæthedsfunktion f(x) P(1 ≤ X ≤ 2) = Areal

  26. Tæthedsfunktionen • (Sandsynligheds)Tæthedsfunktion f(x)

  27. Middelværdi og varians for SV • Middelværdi • Varians

  28. Normalfordelingen • Normalfordelingen • Klokkeformet og (fuldstændigt) karakteriseret ved middelværdi m og standardafvigelse s. • Notation: x ~ N(m,s2) betyder at y er en kontinuert stokastisk variabel, der er normalfordelt medmiddelværdi m og varians s2. • Tæthedsfunktionen for normalfordelingen er • Egenskaber: • Symmetrisk omkring m • f(x) > 0 for alle x. 95% m m-1.96s m+1.96s

  29. Standardafvigelsen σ når X~N(μ,σ2) • Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien • Cirka 95% af alle observationer ligger indenfor 1.96 standard afvigelser fra middelværdien • Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

  30. Chebychevs ulighed (Tjebysjov?) • Lad X være en stokastisk variabel med middelværdi m og varians s2>0. • Da gælder følgende ulighed • Eksempel:k= 2 • Dvs. sandsynligheden for at afvige mere end to standardafvigelser fra middelværdien er altid mindre en 25%.

  31. Interessante størrelser • I statistik optræder masser af stokastiske variable. • Ofte er vi interesserede i at udregne en eller flere af følgende tre størrelser • Middelværdi m = E[X] • Variansen s2 = Var(X) = E[(X-m)2] • Sandsynlighed p =P(X ∈A) • Dette kan være svært - eller umuligt. • En løsning er (computer) simulationer.

  32. Simpel Monte Carlo • X stokastisk variabel ~ P • Middelværdi:E[X] = m • Antag X1, X2,…, Xn ~ Pog uafhængige. • Udregn stikprøvegennemsnit • Da er et Monte Carlo estimat af m. • Kan udvides til afhængige X1, X2,…, Xn • Hvis X1, X2,… er en Markov kæde, så kaldes det MCMC. • MCMC = Markovchain Monte Carlo.

  33. Middelværdier er (næsten) alt! • Antag vi er interesseret i en sandsynlighed p. • Vi har Bernoulli variabel X som vi kan simulere P(X = 1) = pogP(X = 0) = 1 - p • Middelværdien: • Simuler uafh.: X1, X2,…, Xn ~ Ber(p) • Monte Carlo estimat af p:

  34. Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være nuafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af Tommelfingerregel: n = 30 er nok til en god tilnærmelse. Praktisk omskrivning: Dvs. Monte Carlo estimatet er tilnærmet normalfordelt.

  35. Simulation i R • Man kan simulere en normalfordeling • x = rnorm(n=1000, mean=198, sd=10) • mean(x) ## stikprøvegennemsnit[1] 198.3801 • sd(x) ## stikprøvestandardafvigelse[1] 10.02518 • hist(x) ## histogram

  36. Lidt flere plot i R • hist(x,freq=FALSE) • curve(dnorm(x,mean=198,sd=10), 150,250,add=TRUE) • Den kumulerede fordelingsfunktion (F(x) = P(X≤x)) • curve(pnorm(x,mean=198,sd=10), 150,250)

  37. Monte Carlo eksempel i R • Antag X ~N(198,100) • Find P(X<190) • Simuler stikprøve fra normalfordeling: • x = rnorm(n=1000,mean=198,sd=10) • mean(x<190) ## falsk = 0 / sand = 1[1] 0.207 • Korrekte svar findes vha. • pnorm(q=190,mean=198,sd=10) ## kumulerede ford.[1] 0.2118554

  38. For at illustrere CLT kan vi nemt gentage Monte Carlo simulationen 2500 gange: • > xbar= replicate(2500,mean(rnorm(n=1000,mean=198,sd=10)<190)) • > hist(xbar,breaks=25,freq=FALSE)

  39. c2-fordelingen • Antag Z1,Z2,…,Zk er k uafhængige standard normalfordelte stokastiske variable, dvs. Zi ~ N(0,1). • Definer Da følger W en c2-fordeling med k frihedsgrader. • Tæthedsfunktionen for c2-fordeling med kfrihedsgrader er

  40. c2-fordelingen df= 5 df= 10 • c2-fordeling… • antager kun positive værdier • er højreskæv df= 10 • facon er givet ved antal frihedsgrader (df = degrees of freedom) • har middelværdi m = dfog varians s2 = 2df.

  41. R • R er et open source statstikprogram og programmerings-sprog introduceret i 1993. • Seneste version er 3.0.2 • R kan downloades på www.r-project.org • R er i udgangspunktet uden peg-og-klik • Mere end 2000 pakker (udvidelser a la et plugin) • I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux. • For at få en smartere brugerflade anvender vi RStudio

  42. RStudio • Sådan ser RStudio typisk ud første gang man starter det. • Nederste vestre vindue er hvor man snakker direkte med R vha. tekst-kommandoer.

  43. RStudio – lidt opsætning • Det er nyttigt at ændre R’s standard-mappe. • Vælg Tools → Options • Under ‘Default workingdirectory..’ vælg den mappe hvor I vil gemme filer relateret til R (fx. data)

  44. R hjælp • Man kan få hjælp vha. ?<kommando>> ?sum • Man kan få RStudio til at gætte vha. Tab-knappen • Man kan også søge efter hjælp vha. > help.search("plot")

  45. Statistisk test: Motivation (based on a true story…) • Setup: • Vi vil undersøge om der er sammenhæng mellem køn og om man gennemfører sit studie på normeret tid! • Vi har spurgt 2000 (fiktive) AAU kandidater. • Opsummering af data i en kontingenstabel • Er der en sammenhæng ml. køn og rettidighed?

  46. Hypotesetest • Vi vil afgøre spørgsmålet vha. et såkaldt hypotesetest. • Denne testteori er udvikle af Neyman og Pearson i 30erne. • Grundlæggende ide: • Vi inddeler verden i to • Nul-hypotesen (H0) (Der er ingen sammenhæng) • Alternativ-hypotesen (H1) (Der er en sammenhæng) • Princip: • Nul-hypotesen er sand indtil det modsatte er ”bevist”. • Alle udregninger foretages under antagelse af H0. • Tvivlen skal altid komme nul-hypotesen til gode.

  47. Forventede antal under H0 • Nu tager vi udgangspunkt i at H0 er sand – dvs. ingen sammenhæng! • Hvilke antal havde vi forventet, hvis H0 var sand? • Uden sammenhæng burde andelen af ”På normeret tid” være den samme blandt mænd og kvinder, dvs. 64.25%. • Da der er både 1000 mænd og kvinder ville vi forvente 642.5 ”rettidige” kandidater.

  48. Observerede vs. Forventede antal • En sammenligning af forventede og observerede antal: • Er de observerede antal for langt fra de forventede til at vi kan tro på H0? Observeret antal Forventet antal

  49. Observerede vs. Forventede antal Observeret antal Forventet antal • Vi måler ”afstanden” mellem observerede og forventede vha. O3 E3

  50. Resultat og Konklusion • Resultat • Så ”afstanden” en 48,33… er det for stor? • Tommelfinger-regel(for 2x2 tabel): • Afstanden er for stor hvis c2 > 3.84. • Konklusion: • Afstanden er for stor! Vi tror ikke på ”H0:Ingen sammenhæng”. • Med andre ord: Der er en sammenhæng! • Mere præcist: Der er en statistisk signifikantsammenhæng.

More Related