statistik lektion 4 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Statistik Lektion 4 PowerPoint Presentation
Download Presentation
Statistik Lektion 4

Loading in 2 Seconds...

  share
play fullscreen
1 / 35
derry

Statistik Lektion 4 - PowerPoint PPT Presentation

130 Views
Download Presentation
Statistik Lektion 4
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. StatistikLektion 4 Kovarians og korrelation Mere om normalfordelingen Den centrale grænseværdisætning Stikprøvefordelingen

  2. Repetition: Kontinuerte stokastiske variable f(x) • f (x) er en sandsynlighedstætheds-funktion, hvis • Fordelingsfunktion - arealet til venstre for x. • Sandsynlighed for interval F(x) = P(X≤x) F(x) P(2 ≤x≤3)

  3. Simultan kumulativ fordelingsfunktion og uafhængighed Definition: Lad X1,X2,…,Xnvære stokastiske variable. Da er den Simultane kumulativ fordelingsfunktion givet ved Dvs. sandsynligheden for at X1 er mindre end x1, samtidig med at X2 er mindre end x2 osv. Definition: De stokastiske variable X1,X2,…,Xner uafhængige hvis og kun hvis hvor F(xi) = P(Xi ≤ xi)er den marginale fordelingsfunktion for Xi.

  4. Kovarians Definition: Lad Xog Y være stokastiske variable (kontinuerte eller diskrete), med middelværdier E[X]=mXog E[X]=mY. Da er kovariansen mellem X og Y givet ved Sætning: Hvis Xog Y er uafhængige stokastiske variable, så er Cov(X,Y) = 0. Det modsatte gælder generelt ikke. Bemærk: Der gælder at Cov(X,X) = Var(X).

  5. Korrelation Definition: Lad Xog Y være stokastiske variable (diskrete eller kontinuerte) med varianser Var[X] = s2X og Var[Y] = s2Y. Da er korrelationen mellem X og Y givet ved ▪ Korrelationen tager værdier i intervallet [-1;1] ▪ Korrelationen beskriver graden af lineær sammenhæng. ▪ Både r = 1 og r = - 1 betyder perfekt lineær sammenhæng ▪ r > 0 : store x med store y og små x med små y ▪ r < 0 : store x med små y og små x med store y ▪ r = 0 : ingen lineær sammenhæng mellem X og Y

  6. Korrelation: Eksempler • Stikprøver fra par af stokastiske variable, X og Y, med forskellige korrelationer. r = 1.0 r = 0.8 r = -0.3 r = 0.0

  7. Linearkombinationer af to stok. var. Sætning: Lad X og Y være to stokastiske variable (kontinuerte eller diskrete) med E[X] = mX, E[Y] = mY, Var[X] = s2x og Var[Y] = s2Y. Da gælder og Hvis X og Y er uafhængigegælder

  8. Linearkombination af stokastiske variable Sætning: Lad X1, X2,…,Xnvære stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s12, s22,…, sn2. Middelværdienaf en sum

  9. Linearkombination af stokastiske variable Sætning: Lad X1, X2,…,Xnvære stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s12, s22,…, sn2. Variansenaf en sum, hvis X1, X2,…,Xner indbydes uafhængige Hvis afhængige

  10. Repetition: Normal fordelingen • Dens kendetegn er: • Klokkeformet og symmetrisk omkring dens middelværdi • Middelværdi=median=mode • Den er karakteriseret ved en middelværdi μ og varians σ²(eller standard afvigelse σ). • X~N( m,s² ) betyder, at X følger en normal fordeling med middelværdi μ og varians σ² • Arealet under kurven indenfor zσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse. • Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)  

  11. Standard normal fordelingen • Standard normal fordelingen, er normalfordelingen med middelværdi μ=0 og standard afvigelse σ=1, Z~N(0,1²) Standard Normal fordeling 0 . 4 0 . 3 { =1 ) z ( f 0 . 2 0 . 1 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5  = 0 Z NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.

  12. Ny type spørgsmål F(z) = 90% • Eksempel fra sidst: • Find P(Z≤ -1.76 ) • Nyt eksempel: • Find en værdi z, så P(Z ≤ z) = F(z) = 0.90 z • Tabelløsning: • I Tabel 1 find z, så F(z) er tættest mulig på 0.90. F(1.28) = 0.8997 og F(1.29) = 0.9015. Dvs. Svaret er et sted mellem 1.28 og 1.29…

  13. Ny type spørgsmål - fortsat • Eksempel igen: • Find en værdi z, så P(Z ≤ z) = 0.90. 90% z • R løsning: • > qnorm(p=0.90,mean=0,sd=1) • [1] 1.281552 • R løsning – endnu simplere: • > qnorm(0.90) • [1] 1.281552

  14. Repetition: Standardisering • En lineær transformation af normalfordelt stokastisk variabel er stadig en normalfordelt stokastisk variabel. • Lad X ~N(m,s2) og definerY = aX + b, så gælder • E[Y] = aE[X] + b = am + b • V[Y] = a2V[X] = a2s2 • Y ~ N(am + b, a2s2) • Lad X ~N(m,s2) og definer , så gælder • E[Z] = 0 • V[Z] = 1 • Z ~ N(0,1)

  15. Transformation: Eksempel • Antag studerendes score til eksamen er normalfordelt med middelværdi 60 og standardafvigelse 15. • Dvs. score X ~ N(60,152) • Spørgsmål: Find x, så P(X ≤ x) = 0.90 • Ide: Transformer problemet til et, der vedrører en standard normal-fordelt stokastisk variabel. • Vi ved allerede P(Z ≤ 1.282 ) = 0.90 • Dvs. 90% af de studerende har en score under 79.23.

  16. Sum af normalfordelte stok. var. • Antag X1,…, Xn er uafhængige stokastiske variable, hvor Dvs. Xi er normal-fordelt med middelværdi miog varians si2. • Regel: Summen af normalfordelte stokastiske variable er også en normalfordelt stokastisk variabel. • Definer S = X1+ ⋯ + Xn. Da gælder

  17. Statistik • Statistisk Inferens: • Udtale os om værdier af populations parametre • Teste hypoteser om værdier af populations parametre • Tage beslutninger på basis af stikprøver Drage konklusioner om egenskaber for en population... …på basis af observationer i en stikprøve, en del af populationen.

  18. The Literary Digest Poll (1936) Ikke biased stikprøve Ikke biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Biased stikprøve Folk, der har telefon og/eller bil og/eller læser Digest. Republikanere Demokrater Population

  19. Data indsamling • Data indsamling • Direkte observationer • Eksperimenter • Registre • Spørgeskemaer • Et problem med spørgeskemaer er nonrespons bias – hvad gør man når folk ikke vil svare?

  20. Hvordan laver man en stikprøve • Simpel stikprøve • I en simpel stikprøve er observationerne udvalgt, så enhver anden stikprøve med samme antal observationer, er lige så sandsynlig at vælge • Stratificeret stikprøve • Opdele populationen i disjunkte mængder (strata) og tage en simpel stikprøve fra hver strata. • Hvis man for eksempel vil sammenligne hjemløse med resten af befolkningen, så dur en simpel stikprøve ikke.

  21. Stikprøvefordeling • Antag at vi vil udtale os om en populationsparameter (fx middelværdien m)på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ). • Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve • Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)

  22. Stikprøvefordeling: Eksempel • En direktør har seks ansatte med ancienniteten målt i år: 2 4 6 6 7 8 • Populationens gennemsnit er • Vi udtager nu en stikprøve på to ansatte og udregner stikprøve-gennemsnittet. • Bemærk: Vi kan udvælge to ansatte på 15 måder:

  23. Stikprøvefordeling: Eksempel • De mulige gennemsnit og deres sandsynlighed. • De 15 lige sandsynlige stikprøver og deres stikprøve-gennemsnit.

  24. Stikprøvefordeling: Eksempel • Samme direktør og ansatte, men nu en stikprøvestørrelse på n = 5. • Bemærk 1: Kun værdier tæt på populations-middelværdien er sandsynlige. • Bemærk 2: Stikprøve-gennemsnittet tættest på populations-middelværdien er mest sandsynlig.

  25. Stikprøve-fordeling • Antag nu at vi tager en tilfældig stikprøve bestående af n observationer fra en meeeget stor population. • Populationen har middelværdi m og varians s2. • Vi betragter de enkelte observationer i stikprøven som stokastiske variable X1, X2,…,Xn. • For hver observation Xi antager vi at E[Xi] = m og V[Xi] = s2. • Hvad kan vi nu sige om fordelingen af stikprøve-gennemsnittet?

  26. Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi • Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population. • Stikprøve-gennemsnittet af disse SV er • Den forventede værdi af stikprøve-gennemsnittet er • Dvs stikprøve-gennemsnittet i middel er lig populationens middelværdi.

  27. Stikprøve-gennemsnittets stikprøve-fordeling: Varians • Hvis stikprøvestørrelsen n er lille i forhold til populationens størrelse N kan vi antage at SV X1, X2,…,Xn er uafhængige. • Variansen af stikprøve-gennemsnittet er da • Bemærk: Jo større stikprøve, jo mindre varians. • Hvis n er stor i forhold til N kan vi ikke antage uafhængighed. Variansen af stikprøve-gennemsnittet er da

  28. Normal-fordelt Population • Hvis populationen er normal-fordelt gælder Xi ~ N(m,s2) • Da summen af normal-fordelte SV er en normal-fordelt SV har vi at • Vi kan standardisere stikprøve-gennemsnittet: Udregnes som på forrige slide

  29. Stikprøver (n=10) Fordelingen af stikprøve gennemsnit (1000 stikprøver) Population

  30. Eksempel: Tændrør • Producent påstår at levetiden for tændrør er normalfordelt med middelværdi 36.000 miles og SD 4.000 miles. • En stikprøve af størrelse n = 16 har en gennemsnits-levetid på 34.500. • Spørgsmål: Hvis producenten har ret, hvad er sandsynligheden for et stikprøvegennemsnit mindre end eller lig 34.500? • Løsning: • Tror vi på producentens påstande?

  31. Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være nuafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af nærme sig mere og mere en standard normal-fordeling. Tommelfingerregel: n = 30 er nok til en god tilnærmelse.

  32. Normal Uniform Skewed General Population n = 2 n = 30     X X X X Eksempler

  33. Java Eksempel • Her er en animeret illustration af den centrale grænseværdi sætning. • http://www.intuitor.com/statistics/CentralLim.html • Prøv selv at google efter flere…

  34. Acceptområde Antag vi har en population med middelværdi m og varians s2. Vi udtager en stikprøve, der er så stor at CLT ”virker”, dvs. Med lidt omskrivning får vi Hvor za/2 er defineret så P(Z>za/2) = a/2. Dvs. (1-a)100% sandsynlighed ligger i intervallet (acceptområdet)

  35. Eksempel: Nok Espresso? • Kafe Kjeld har købt en ny espresso-maskine! • Producent påstår at hver kop espresso fylder i gennemsnit 30ml med en SD på 2ml. • En stikprøve bestående af n = 36 kopper espresso har et gennemsnitsvolumen på sølle 29.3 ml. • Spørgsmål: Skal Kafe Kjeld brokke sig?