100 likes | 233 Views
Sandsynlighedsfordelinger. Dagens program Teori Normalfordelingen Sampling distribution Opgaver Normalfordelingen Sampling distribution Tid i grupperne. Kast med en mønt, P(krone)=0,5; n=12. Sandsynligheder i normalfordelingen.
E N D
Sandsynlighedsfordelinger Dagens program • Teori • Normalfordelingen • Sampling distribution • Opgaver • Normalfordelingen • Sampling distribution • Tid i grupperne
Sandsynligheder i normalfordelingen De besøgende på en hjemmeside bruger i gns. 300 sekunder på forsiden, før de klikker videre til en underside. Besøgstiden er normalfordelt med en standardafvigelse på 50 sekunder. μ = 300, σ = 50 Hvad er sandsynligheden for at en tilfældig besøgende højest bruger 240 sekunder på forsiden? P(240<X) = 0,12 330 sekunder på forsiden? P(330<X) = 0,73 Hvad er sandsynligheden for at en tilfældig besøgende bruger mere end 380 sekunder på forsiden? P(380<X) = 0,95. P(380>X) =1 - 0,95 240 sekunder på forsiden? P(240>X) = 1- P(240<X) = 0,88 Hvad er sandsynligheden for at en tilfældig besøgende bruger mellem 300 og 330 sekunder på forsiden? P(300<X<330) P(330<X) = 0,73 P(330<X) = 0,5 P(300<X<330) = 0,73 – 0,5 = 0,23
z-score z-scoren beregnes som z = (X – μ) / σ Hvad er sandsynligheden for at tilfældig besøgende højest bruger 240 sekunder på forsiden? z = (X – μ) / σ = (240 – 300) / 50 = -60 / 50 = -1,2 P(-1,2<z) = 0,1151. Hvad er sandsynligheden for at tilfældig besøgende bruger mere end 380 sek.på forsiden? z = (X – μ) / σ = (380 – 300) / 50 = 1,6 P(1,6<z) = 0,95. 1 - 0,95 = 0,05.
Sandsynligheder i normalfordelingen De besøgende på en hjemmeside bruger i gns. 300 sekunder på forsiden, før de klikker videre til en underside. Besøgstiden er normalfordelt med en standardafvigelse på 50 sekunder. μ = 300, σ = 50 Hvad er sandsynligheden for at en tilfældig besøgende højest bruger 240 sekunder på forsiden? P(240<X) = 0,12 330 sekunder på forsiden? P(330<X) = 0,73 Hvad er sandsynligheden for at en tilfældig besøgende bruger mere end 380 sekunder på forsiden? P(380<X) = 0,95. P(380>X) =1 - 0,95 240 sekunder på forsiden? P(240>X) = 1- P(240<X) = 0,88 Hvad er sandsynligheden for at en tilfældig besøgende bruger mellem 300 og 330 sekunder på forsiden? P(300<X<330) P(330<X) = 0,73 P(330<X) = 0,5 P(300<X<330) = 0,73 – 0,5 = 0,23
z-score z-scoren beregnes som z = (X – μ) / σ Hvad er sandsynligheden for at tilfældig besøgende højest bruger 240 sekunder på forsiden? z = (X – μ) / σ = (240 – 300) / 50 = -60 / 50 = -1,2 P(-1,2<z) = 0,1151. Hvad er sandsynligheden for at tilfældig besøgende bruger mere end 380 sek.på forsiden? z = (X – μ) / σ = (380 – 300) / 50 = 1,6 P(1,6<z) = 0,95. 1 - 0,95 = 0,05.
Sampling distribution Vis på tegning Det centrale grænseværdi teorem (central limit theorem) siger: Hvis alle tænkelige stikprøver udtages simpelt tilfældigt fra en population, så danner deres gennemsnit en normalfordeling. Jo større n, des bedre er tilnærmelsen. Når n > 30 er tilnærmelsen god.
Sampling distribution Sampling distribution: Er en ssh. fordeling, der viser sandsynligheder for udfald af et statistisk mål fra en stikprøve, (f.eks. ū). Normalfordelingen er tilnærmelsesvis retvisende som sampling distribution, når n > 30. s er std.afv. på variablen U se er std.afv. på ū’erne (gns. af U). se er en forkortelse for standard error. se beregnes efter formlen σ / √ n. I praksis kender man ikke σ, hvorfor σ estimeres ved s (standardafvigelsen fra stikprøven).
Anvendelse af sampling distribution Vis på tegning Der er foretaget en totaltælling af antallet af musiknumre på studerendes telefoner. Den viser at μ=84 og σ = 96. 100 studerende (tilfældigt valgt) er inviteret til en fest. Hvad er sandsynligheden for at det gns. antal musik-numre på de studerendes telefoner er mellem 70 og 90? Standard error, se = σ / √ n = 96 / √100 = 9,6 z = (X – μ) / σ P(ū<90): z = (90-84)/9,6 = 0,625. P(0,625 <z) = 0,734 P(ū<70): z = (70-84)/9,6 = -1,46. P(-1,46 <z) = 0,072 P(70<ū<90) = 0,73 - 0,07 = 0,66. Konfidens interval
Fordelinger Empiriske fordelinger • Population distribution, N. Populationens ”udseende” er som regel ukendt. Vi udtager en stikprøve fra populationen for at få viden om populationsparametre så som μ og σ. • Sample distribution, n. Stikprøven er en delmængde af N. Den består af data / observationer, u1, u2,..,un. Stikprøven kan beskrives grafisk og numerisk, f.eks. ved hjælp af gns. ū og std.afv. s. Jo større stikprøven er, des mere ligner den populationen (=de store tals lov) Teoretiske fordelinger (fx normalfordelingen) • Sandsynlighedsfordelinger viser sandsynligheden for at en variabel har et bestemt udfald (sandsynligheden er udfaldets ”andel” i det lange løb). • En ”samling distribution” er sandsynlighedsfordelingen for et statistisk mål, f.eks. ū eller s. Den bruges til at finde de sand-synlige værdier af det statistiske mål i populationen (givet stikprøvestørrelsen) .