grundl ggende teoretisk statistik n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Grundlæggende teoretisk statistik PowerPoint Presentation
Download Presentation
Grundlæggende teoretisk statistik

Loading in 2 Seconds...

play fullscreen
1 / 36

Grundlæggende teoretisk statistik - PowerPoint PPT Presentation


  • 285 Views
  • Uploaded on

Grundlæggende teoretisk statistik. Kapitel E Modeller og sandsynlighedsfordelinger. Binomialfordeling. Population: N. Stikprøve: n. G: ”Mærkede”. X: Antal ”mærkede”. (n-x): Antal ”ikke-mærkede”. Tilfældig udvælgelse Uden ordning Konstant udvælgelsessandsynlighed

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Grundlæggende teoretisk statistik' - denver


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
grundl ggende teoretisk statistik

Grundlæggende teoretisk statistik

Kapitel E

Modeller og

sandsynlighedsfordelinger

binomialfordeling
Binomialfordeling

Population: N

Stikprøve: n

G: ”Mærkede”

X: Antal

”mærkede”

(n-x): Antal

”ikke-mærkede”

  • Tilfældig udvælgelse
  • Uden ordning
  • Konstant udvælgelsessandsynlighed
  • Stokastisk uafhængighed

: ”Ikke -mærkede”

p: Udvælgelsessandsynligheden =

binomialfordeling1
Binomialfordeling
  • Binomial fordelingens forudsætninger
    • Tilfældig udvælgelse
    • Uden ordning
    • 2 muligheder (G eller )
    • Population
      • Uendelig, d.v.s. tilbagelægning har ingen betydning, eller
      • Endelig population og med tilbagelægning
    • Forudsætningen omkring population / tilbagelægning 
      • Konstant udvælgelsessandsynlighed = p
      • Stokastisk uafhængighed:
        • P(G1 ∩ G2) = P(G1) P(G2) = p·p= p2
slide4

Eksempel:Hver 6. person anses for at have for højt blodtryk. Udtag tilfældigt n personer fra befolkningen, og mål antallet (X) i stikprøven med for højt blodtryk

2 udtaget

3 udtaget

binomialfordeling2
Binomialfordeling
  • Binomialfordeling
    • Sandsynlighedsfunktionen X~b(n,p):
    • E(X) = n·p og VAR(X)= n·p·(1-p)
hypergeometrisk fordeling
Hypergeometrisk fordeling

Population: N (Endelig)

Stikprøve: n

G: ”Mærkede”

X: Antal

”mærkede”

(n-x): Antal

”ikke-mærkede”

  • Tilfældig udvælgelse
  • Uden ordning
  • Uden tilbagelægning
  • Udvælgelsessandsynlighed ændrer sig
  • Stokastisk afhængighed

: ”Ikke -mærkede”

hypergeometrisk fordeling1
Hypergeometrisk fordeling
  • Hypergeometrisk fordeling
    • Tilfældig udvælgelse
    • Endelig population
    • Uden tilbagelægning
    • Uden ordning
    • 2 muligheder (G eller )
    • Stokastisk afhængighed
  • Sandsynlighedsfunktion, P(X=x)
  • E(X) og VAR(X)
  • Approximation til binomialfordeling ved n/N<0,1 eller
    • n<0,1*G og n<0,1*(N-G) – se bogen side 76
hypergeometrisk fordeling2
Hypergeometrisk fordeling
  • Hypergeometrisk fordeling
    • Sandsynlighedsfunktionen h(N,G,n):

Korrektionsfaktor for store stikprøver

poisson fordeling
Poisson fordeling
  • Poisson fordelingens karakteristika
    • Baserer sig på binomialfordelingen, hvor n bliver meget stor og p meget lille, således at n*p holdes konstant.
    • Typisk ved måling af et antal hændelser, der sker indenfor et givet tidsrum
    • Der er ingen øvre grænse for det antal hændelser der kan ske indenfor det givne tidspunkt
    • Eksempler
      • Antal fødsler over en dag på en given fødegang
      • Antal biler, der kører for stærkt kl. 16-17 på et givet stykke vej.
      • Kunder, der kommer frem til en kasse / går ind i en forretning de næste E minutter.
      • Antal henvendelser i en help-desk over en dag
      • Antal modtagne klager over en måned.
    • Typisk kommer hændelser i ’klumper’ – jf. ordsproget ”Én ulykke kommer sjældent alene”
poisson fordeling1
Poisson fordeling
  • Grundlaget er binomialfordelingen – et eksempel:
    • Til en tlf.central er på 180 minutter ankommet 270 kald, d.v.s. 1,5 kald pr. minut i gennemsnit
    • Hvad er sandsynligheden for, at der de næste 3 minutter kommer x antal kald
    • E(X) = 4,5 kald i de næste 3 minutter
    • Perioden på 3 minutter opdeles i n intervaller således at E(X)= n·p = 4,5, og således, at
      • n → ∞ og p → 0
    • Herved konvergerer binomialfordelingen mod poisson-fordelingen med parameteren λ = n ·p = 4,5
poisson fordeling ps
Poisson fordeling (ps)
  • Sandsynlighedsfunktion ps(λ)
  • E(X) = λ og VAR(X)= λ
  • Approximation fra b(n,p) til ps(λ), når
    • n>50 og p< 0,1 (bogen side 78), evt. skærpet til
    • n>100 og p<0,1 (anden litteratur)
opgaver
Opgaver
  • Opgavesamling i Statistik 2009 fra Statistica:
    • Opgave 22 – 28
    • Opgave 34 spm. 1-3 og 35 spm. 1
  • Evt. BWH-Opgavesamling:
    • Opgavesæt U2 – opgave 1 og 2 side 35
kontinuerte sandsynlighedsfordelinger
Kontinuerte sandsynlighedsfordelinger
  • Hvad er en kontinuert variabel?
  • Normalfordelingen
  • Den centrale grænseværdisætning
  • Approximationer
  • Χ2–fordelingen (læs: chi-i-anden)
  • t-fordelingen
  • F-fordelingen
kontinuert stokastisk variabel
Kontinuert stokastisk variabel
  • Stokastisk variabel
    • Knytter en talværdi til ethvert udfald i et tilfældigt eksperiment
    • Sandsynligheder knyttes til værdierne af den stokastiske variable, men da en kontinuert variabelkan antage uendelig mange værdier er sandsynligheden for en enkelt af disse naturligvis 0.
  • Sandsynligheder knyttes derfor til et interval
    • Tæthedsfunktion.
      • Sandsynligheder beregnes som arealer. Arealet under hele kurven er 1 (100%)
    • Fordelingsfunktion
    • Interval-beregning
forventning og varians
Forventning og varians
  • Begrebsapparat
    • μx = middelværdi på x - populationen
    • = gennemsnit. - stikprøven
    • σ2 = Variansen - populationen
    • s2 = Empirisk varians – (stikprøven)
  • Forventning og varians:
normalfordelingen n 2
Normalfordelingen, N(μ,σ2)
  • Kontinuert
  • Klokkeformet og symmetrisk
  • Tæthedsfunktion og fordelingsfunktion
  • Standardisering
  • Tabeller (Standardnormalfordelingen, Z~ N(0,1))
  • Approximation fra b(n,p) / ps(λ)
    • Approximationsbetingelse VAR(X) > 9 (se side 90)
    • Husk evt. kontinuitetskorrektion
normalfordelingens former
Normalfordelingens former
  • Hastigheder på biler måles på en bestemt vej og tidspunkt
  • Hastigheden anta-ges normalfordelt med middelværdi 60
  • Fordelingens form ved forskellige vari-anser er vist overfor.
opgaver1
Opgaver
  • Opgavesamling i Statistik 2009 fra Statistica:
    • Opgave 29 – 32 (vedr. Normalfordelingen)
  • BWH-Opgavesamling :
    • Opgavesæt U2 – opgave 3 side 35
grafisk kontrol
Grafisk kontrol
  • Normalfraktildiagram
  • Eksempel med de 55 indkøb i supermarked
    • Beregn fraktildiagram
    • Beregn z = NORMSINV i Excel på fraktilerne
    • Afsæt z og x (indkøbets størrelse) i et koordinatsystem
normalfraktildiagram
Normalfraktildiagram
  • Normalfraktildiagram er en ret linie, hvis X ∼ N(, 2)
  • Aflæsning af  og  på X-aksen ud for z = 0 hhv. 1
opgaver2
Opgaver
  • BWH-Opgavesamling :
    • Opgavesæt U2 – opgave 4 side 153
    • Opgavesæt U3 – opgave 6 side 156
centrale gr nsev rdis tning cgs
Centrale grænseværdisætning (CGS)
  • Lad X1, X2,….. Xn være identisk fordelte og uafhængigestokastiske variable, hver med en middelværdi på  og varians 2.
  • Summen af de n stokastiske variable vil - når n er tilstrækkelig stor - være approximativ normalfordelt:
  • Gennemsnittet vil derfor være
fra b n p til n 2 np 2 np 1 p kontinuitetskorrektion
Fra b(n,p) til N(μ,σ2) – (μ=np; σ2=np(1-p)) kontinuitetskorrektion

P(X14)

Beregnes i

a) binomialfordelingen som arealet af de blå søjler – d.v.s. området fra 13,5 og frem

b) normalfordelingen som arealet under den bløde kurve fra 14

For at få samme re-sultat må beregnin-gen i Normalfordelin-gen også starte i 13,5 !

afledte fordelinger
Afledte fordelinger
  • Χ2v - fordelingen (chi-kvadrat)
  • tv – fordelingen
  • Fv - fordelingen
  • Sandsynligheder er afhængig af
    • v der kaldes antal frihedsgrader
  • v er afhængig af stikprøvens størrelse
  • Jo større v (stikprøve) jo mere kommer de 3 fordelinger til at ligne normalfordelingen, jf. CGS
2 fordelingen
Χ2 – fordelingen
  • Bruges bl.a. til undersøgelse (test) af, om
    • populationsvarianser har ændret sig
    • empiriske data følger en given sandsynlighedsfordeling (f.eks. Normalfordelingen)
    • Et datamateriale er repræsentativt
    • Der er afhængighed i krydstabuleringer
  • Fordelingen er baseret på en kvadreret normalfordeling
t fordelingen
T-fordelingen
  • Bruges bl.a. ved test på middelværdi, hvor populationsvariansen, σ2 er ukendt
  • T-fordelingen er symmetrisk omkring 0
  • Fladere end standardnormalfordelingen, Z~N(0, σ2)
    • D.v.s. større standardafvigelse
  • Afhænger af antal frihedsgrader, v=n-1
  • T-fordelingen  Z~N(0,σ2), når n∞
f fordelingen
F-fordelingen
  • Bruges især, når vi tester på, om der er forskel på varianserne i 2 populationer
  • Bemærk, at man altid sætter den største stikprøve-varians i tælleren!