Statistik - PowerPoint PPT Presentation

kacia
statistik n.
Skip this Video
Loading SlideShow in 5 Seconds..
Statistik PowerPoint Presentation
play fullscreen
1 / 182
Download Presentation
Statistik
594 Views
Download Presentation

Statistik

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Statistik Brogaarden 20. og 21. januar 2014

  2. Introduktion • Mig • Kasper K. Berthelsen, statistiker • kkb@math.aau.dk • people.math.aau.dk/~kkb • Min arbejdsplads • Institut for Matematiske Fag, AAU • www.math.aau.dk • Statistikgruppen • 2 professorer, 8 lektorer, 2 adjunkter, 4-6 ph.d. studerende.

  3. Matematiske uddannelser ved AAU • To-fags-uddannelse (”Gymnasielæreruddanelsen”) • Fx. matematik og fysik, matematik og dansk… • Et-fags-uddannelse (”Anvendt matematik”) • 4 år med matematik og 1 år med ”noget andet”, • Ofte er det ene år på en ingeniør-retning. • Matematik-Økonomi – 5-årig kandidatuddannelse • Matematik-Teknologi – 5-årig kandidatuddannelse • Seneste optage er 60-65 studerende • Kandidatproduktion 5-10 studerende… må forventes at vokse

  4. Tilbud til gymnasieelever • Studerende for en dag • Kontakt sekretær Lisbeth Grubbe grubbe@math.aau.dk • Numbers bloggen numb3rs.math.aau.dk • Masser af inspiration i mere end 200 blog-indlæg • Studiepraktik www.studiepraktik.aau.dk

  5. Statistik – hvad er det? • Statistik er kunsten at drage en generel konklusion på baggrund af ufuldstændig information. • Det er uinteressant at finde ud af om der er (statistisk signifikant) forskel på udfaldet af to valg. Jeg kan jo bare tælle stemmerne…. • Har jeg kun lavet en rundspørge, så er det straks mere interessant. • I statistik består data af to komponenter • En systematisk variation (”signal”) • En tilfældig variation (”støj”) • Statistik handler om at fjerne støj fra data.

  6. Eksempel på (u)statistisk problemstilling Matematik B, Studentereksamen 2012 • Ifølge hjemmesiden givblod.dker fordelingen af blodtyper i den danske befolkning som følger: • Tabellen nedenfor viser, hvorledes de 950 patienter i en bestemt lægeklinik fordeler sig på blodtyperne. • Lægeklinikken vil undersøge nulhypotesen: Lægeklinikkens patienter har samme blodtypefordeling, som den danske befolkning.

  7. Statistik: Religionskrig • Der findes to hovedretninger indenfor statistik • Frekventiel statistik • Her er sandsynligheder baseret på frekvenser • Den klassiske metode • Bayesiansk statistik • Baserer sig på subjektive sandsynligheder • Moderne? Mere naturlig? • Der har tidligere været en vældig krig mellem de to retninger…

  8. Mange forskellige statistiske discipliner • Survey/sprøgeskema • Overlevelsesanalyse • Longitudinelle analyser (gentagede målinger over tid) • Tidsrækkeanalyse (fx aktiekurser) • Rumlig statistik osv. osv. Anvendelsesområder: • Biostatistik / biometri • Økonometri • Psykometriosvosv

  9. Hvad så med mig…? • Jeg beskæftiger mig med rumlig statistik. • Mest punktprocesser:”Støj” = placering • Mindre geostatistik: ”Støj” = målte værdier

  10. Hvad så med mig…? • Simulationsbaseret inferens • Særligt Markov kæde Monte Carlo • Formål: Skabe en sekvens af afhængige stokastiske variable, der har de rette egenskaber i det lange løb…

  11. En population og en stikprøve • Population • Konkret: Stemmeberettigede i Danmark • Abstrakt: Alle målinger af lysets hastighed • Stikprøve • Vi udvælger (tilfældigt) elementer fra populationen. Kan gøres på mange måder. • Ide: Vi vil gerne udtale os om hele populationen med udgangspunkt i stikprøven. • Princip: Vi skal gøre dette med tanke på, at stikprøven er tilfældig. Vi kunne have været uheldige…

  12. Stikprøveudtagning • Tilfældig • Alle elementer i populationen har lige stor sandsynlighed for at blive udvalgt. • Eksempel: CPR-registret. • Stratificeret • Populationen inddeles i undergrupper (strata). • Man udtager en tilfældig stikprøve fra hver gruppe. • Nyttig metode, hvis man vil sikre at alle delgrupper er repræsenteret i stikprøven. • Eksempel: Sammenligning af hjemløse og resten.

  13. Stikprøveudtagning • Cluster sampling. • Man vælger et antal ”steder” i befolkningen og sampler i nærheden. • Eksempel: Tilfældige veje i en kommune udvælges, hvorefter alle på de vej bliver spurgt. • Problem: Systematiske fejl • I den virkelige verden opstår mange statistiske fejl allerede i indsamlingsfasen… • Ofte introduceres systematisk fejl – såkaldt bias.

  14. The Literary Digest Poll (1936) Ikke-biased stikprøve Ikke-biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Biased stikprøve Folk, der har telefon og/eller bil og/eller læser Digest. Republikanere Demokrater Population Literary Digest resultat: Alfred Landon slår Frenklin Roosevelt stort. Faktiske resultat: Landskredssejr til Roosevelt.

  15. Andre slags bias • Formulering af spørgsmål har betydning for svar: • In favour of new gasolinetax: 12% yes • In favour of new gasolinetax to reduce US dependence on foreignoil: 55% yes • In favour of new gasolinetax to reduce global warming: 59% yes

  16. Andre slags bias • Rækkefølgen af spørgsmål.Under den kolde krig blev følgende to spørgsmål stillet: • Do youthink the U.S. should let Russian newspaper reporters comehere and report back whatevertheywant? • Do youthinkRussiashouldlet American newspaper reporters comein and reportback whatevertheywant? • 36% svarer ja til A. hvis det er første spørgsmål. • 73% svarer ja til A. hvis det er andet spørgsmål.

  17. Andre slags bias • I en amerikansk undersøgelse afhang svarene i et telefoninterview af, den interviewedes forestilling om interviewerens etniske tilhørsforhold. • Is the US society fair to everyone? 14% / 31% • I medicinske forsøg: Alle der oplever bivirkninger dropper ud. Konklusion: Ingen bivirkninger… • Medicinsk vs Kirurgisk behandling. Svage patienter udsættes ikke for den kirurgiske behandling.

  18. Sandsynlighed: Opvarmning • Udfald • Resultatet af et ”eksperiment” kaldes et udfald. • Eksempler: • Eksperiment: Vælg en partileder / mål lysets hastighed • Udfald: Lars / 299791 km/s • (stikprøver fra hvilke populationer…?) • Hændelse • En hændelse er en mængde af udfald. • Eksempler: • Vælge en kvinde / Hastighedsmåling er ml. 299790 km/s og 299793 km/s

  19. Sandsynlighed • Sandsynlighed • Sandsynligheden for en hændelse A er andelen af gange eksperimentet resulterer i hændelsen Ai det lange løb. • Notation • P(A) betegner sandsynligheden for hændelsen A. • Det behøver ikke være sådan: Hva’ nu hvis… • P(Bayern München vinder CPL) • P(Det regner i morgen) • Eksempler på subjektive sandsynligheder

  20. Sandsynlighed: Egenskaber og regneregler • 0 ≤P(A) ≤ 1 • P(A) = 0 - hændelsen Aindtræffer aldrig. • P(A) = 1 - hændelsen Aindtræffer hver gang. • P( ikkeA) = 1 – P(A) • Hvis Aikke indtræffer, så må ”ikke A” nødvendigvis indtræffe • Hvis hændelserne A og B ikke kan indtræffe samtidigt gælder: P( AUB ) = P(A) + P(B)

  21. Betinget sandsynlighed • Betinget sandsynlighed Hvis A og B er mulige udfald, så gælder Hvilket kan omskrives til multiplikationsreglen: P(A∩B) = P(A)P(B | A)

  22. Uafhængighed • Uafhængighed To hændelser A og B er uafhængige hvis og kun hvis hvilket kan omskrives til P( B| A ) = P(B)

  23. Stokastisk variabel • Stokastisk variabel • Antag vi kan knytte en talværdi til hvert udfald af et eksperiment. Hvert eksperiment fører således til et tilfældigt tal. • Dette tilfældige tal kaldes en stokastisk variabel. X 0 1 5

  24. Diskret stokastisk variabel (SV) • En stokastisk variabel X er diskret, hvis den kun kan tage et tælleligt antal værdier. Typisk 0, 1, 2, 3,… • Lad P(k) betegne sandsynligheden for at den stokastiske variabel X tager værdien k. Dvs. P(1) = ”sandsynligheden for y tager værdien 1”. • P(x) skal opfylde: • 0 ≤ P(x) ≤ 1 for alle x. • Salle xP(x) = 1

  25. Kontinuert stokastisk variabel • Hvis y er en kontinuert stokastisk variabel kan den tage alle værdier i et interval. • Vi angiver sandsynligheden for at X falder i et interval [a ; b] ved et areal under en kurve. Tæthedsfunktion f(x) P(1 ≤ X ≤ 2) = Areal

  26. Tæthedsfunktionen • (Sandsynligheds)Tæthedsfunktion f(x)

  27. Middelværdi og varians for SV • Middelværdi • Varians

  28. Normalfordelingen • Normalfordelingen • Klokkeformet og (fuldstændigt) karakteriseret ved middelværdi m og standardafvigelse s. • Notation: x ~ N(m,s2) betyder at y er en kontinuert stokastisk variabel, der er normalfordelt medmiddelværdi m og varians s2. • Tæthedsfunktionen for normalfordelingen er • Egenskaber: • Symmetrisk omkring m • f(x) > 0 for alle x. 95% m m-1.96s m+1.96s

  29. Standardafvigelsen σ når X~N(μ,σ2) • Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien • Cirka 95% af alle observationer ligger indenfor 1.96 standard afvigelser fra middelværdien • Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

  30. Chebychevs ulighed (Tjebysjov?) • Lad X være en stokastisk variabel med middelværdi m og varians s2>0. • Da gælder følgende ulighed • Eksempel:k= 2 • Dvs. sandsynligheden for at afvige mere end to standardafvigelser fra middelværdien er altid mindre en 25%.

  31. Interessante størrelser • I statistik optræder masser af stokastiske variable. • Ofte er vi interesserede i at udregne en eller flere af følgende tre størrelser • Middelværdi m = E[X] • Variansen s2 = Var(X) = E[(X-m)2] • Sandsynlighed p =P(X ∈A) • Dette kan være svært - eller umuligt. • En løsning er (computer) simulationer.

  32. Simpel Monte Carlo • X stokastisk variabel ~ P • Middelværdi:E[X] = m • Antag X1, X2,…, Xn ~ Pog uafhængige. • Udregn stikprøvegennemsnit • Da er et Monte Carlo estimat af m. • Kan udvides til afhængige X1, X2,…, Xn • Hvis X1, X2,… er en Markov kæde, så kaldes det MCMC. • MCMC = Markovchain Monte Carlo.

  33. Middelværdier er (næsten) alt! • Antag vi er interesseret i en sandsynlighed p. • Vi har Bernoulli variabel X som vi kan simulere P(X = 1) = pogP(X = 0) = 1 - p • Middelværdien: • Simuler uafh.: X1, X2,…, Xn ~ Ber(p) • Monte Carlo estimat af p:

  34. Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være nuafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af Tommelfingerregel: n = 30 er nok til en god tilnærmelse. Praktisk omskrivning: Dvs. Monte Carlo estimatet er tilnærmet normalfordelt.

  35. Simulation i R • Man kan simulere en normalfordeling • x = rnorm(n=1000, mean=198, sd=10) • mean(x) ## stikprøvegennemsnit[1] 198.3801 • sd(x) ## stikprøvestandardafvigelse[1] 10.02518 • hist(x) ## histogram

  36. Lidt flere plot i R • hist(x,freq=FALSE) • curve(dnorm(x,mean=198,sd=10), 150,250,add=TRUE) • Den kumulerede fordelingsfunktion (F(x) = P(X≤x)) • curve(pnorm(x,mean=198,sd=10), 150,250)

  37. Monte Carlo eksempel i R • Antag X ~N(198,100) • Find P(X<190) • Simuler stikprøve fra normalfordeling: • x = rnorm(n=1000,mean=198,sd=10) • mean(x<190) ## falsk = 0 / sand = 1[1] 0.207 • Korrekte svar findes vha. • pnorm(q=190,mean=198,sd=10) ## kumulerede ford.[1] 0.2118554

  38. For at illustrere CLT kan vi nemt gentage Monte Carlo simulationen 2500 gange: • > xbar= replicate(2500,mean(rnorm(n=1000,mean=198,sd=10)<190)) • > hist(xbar,breaks=25,freq=FALSE)

  39. c2-fordelingen • Antag Z1,Z2,…,Zk er k uafhængige standard normalfordelte stokastiske variable, dvs. Zi ~ N(0,1). • Definer Da følger W en c2-fordeling med k frihedsgrader. • Tæthedsfunktionen for c2-fordeling med kfrihedsgrader er

  40. c2-fordelingen df= 5 df= 10 • c2-fordeling… • antager kun positive værdier • er højreskæv df= 10 • facon er givet ved antal frihedsgrader (df = degrees of freedom) • har middelværdi m = dfog varians s2 = 2df.

  41. R • R er et open source statstikprogram og programmerings-sprog introduceret i 1993. • Seneste version er 3.0.2 • R kan downloades på www.r-project.org • R er i udgangspunktet uden peg-og-klik • Mere end 2000 pakker (udvidelser a la et plugin) • I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux. • For at få en smartere brugerflade anvender vi RStudio

  42. RStudio • Sådan ser RStudio typisk ud første gang man starter det. • Nederste vestre vindue er hvor man snakker direkte med R vha. tekst-kommandoer.

  43. RStudio – lidt opsætning • Det er nyttigt at ændre R’s standard-mappe. • Vælg Tools → Options • Under ‘Default workingdirectory..’ vælg den mappe hvor I vil gemme filer relateret til R (fx. data)

  44. R hjælp • Man kan få hjælp vha. ?<kommando>> ?sum • Man kan få RStudio til at gætte vha. Tab-knappen • Man kan også søge efter hjælp vha. > help.search("plot")

  45. Statistisk test: Motivation (based on a true story…) • Setup: • Vi vil undersøge om der er sammenhæng mellem køn og om man gennemfører sit studie på normeret tid! • Vi har spurgt 2000 (fiktive) AAU kandidater. • Opsummering af data i en kontingenstabel • Er der en sammenhæng ml. køn og rettidighed?

  46. Hypotesetest • Vi vil afgøre spørgsmålet vha. et såkaldt hypotesetest. • Denne testteori er udvikle af Neyman og Pearson i 30erne. • Grundlæggende ide: • Vi inddeler verden i to • Nul-hypotesen (H0) (Der er ingen sammenhæng) • Alternativ-hypotesen (H1) (Der er en sammenhæng) • Princip: • Nul-hypotesen er sand indtil det modsatte er ”bevist”. • Alle udregninger foretages under antagelse af H0. • Tvivlen skal altid komme nul-hypotesen til gode.

  47. Forventede antal under H0 • Nu tager vi udgangspunkt i at H0 er sand – dvs. ingen sammenhæng! • Hvilke antal havde vi forventet, hvis H0 var sand? • Uden sammenhæng burde andelen af ”På normeret tid” være den samme blandt mænd og kvinder, dvs. 64.25%. • Da der er både 1000 mænd og kvinder ville vi forvente 642.5 ”rettidige” kandidater.

  48. Observerede vs. Forventede antal • En sammenligning af forventede og observerede antal: • Er de observerede antal for langt fra de forventede til at vi kan tro på H0? Observeret antal Forventet antal

  49. Observerede vs. Forventede antal Observeret antal Forventet antal • Vi måler ”afstanden” mellem observerede og forventede vha. O3 E3

  50. Resultat og Konklusion • Resultat • Så ”afstanden” en 48,33… er det for stor? • Tommelfinger-regel(for 2x2 tabel): • Afstanden er for stor hvis c2 > 3.84. • Konklusion: • Afstanden er for stor! Vi tror ikke på ”H0:Ingen sammenhæng”. • Med andre ord: Der er en sammenhæng! • Mere præcist: Der er en statistisk signifikantsammenhæng.