slide1 l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Inferens fra stikprøve til population PowerPoint Presentation
Download Presentation
Inferens fra stikprøve til population

Loading in 2 Seconds...

play fullscreen
1 / 23

Inferens fra stikprøve til population - PowerPoint PPT Presentation


  • 414 Views
  • Uploaded on

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl. 15.00 ved Henrik Lolle. Inferens fra stikprøve til population.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Inferens fra stikprøve til population' - Audrey


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Kvantitativ metode del 1Gymnasielærer-kursus forår 2007Aalborg UniversitetPopulation, stikprøve og signifikansMandag den 19. marts, kl. 15.00ved Henrik Lolle

inferens fra stikpr ve til population
Inferens fra stikprøve til population
  • Nogle gange har man i samfundsvidenskabelig forskning adgang til data fra hele den ’population’, der skal undersøges. Et sådan datasæt kaldes et ’census’.
  • Som oftest er dette imidlertid ikke muligt. Så må man lade sig nøje med en stikprøve, der er udtrukket fra populationen.
  • Men det er stadigvæk ens mål at besvare spørgsmål, der angår populationen og ikke alene de forhold, der angår stikprøven. Stikprøven som sådan er ikke vældig interessant.
stikpr ve design
Stikprøve-design

Ikke sandsynlighedsudvælgelse

Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ikke!

- ifm. pilotundersøgelse el. rent teknisk afprøvning

- hvor populationen ikke kan afgrænses særlig præcist

- særlige tilfælde af meningsmålinger

- osv.

Stikprøver

Sandsynlighedsudvælgelse

Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes!

- Simpel tilfældig udvælgelse

- Systematisk udvælgelse

- Stratificeret udvælgelse

- Klyngeudvælgelse

- Flertrins kombinationsformer

simpel tilf ldig eller systematisk udv lgelse

Udvalgsramme

°

×

°

Stikprøve

×

×

°

×

×

°

°

×

×

×

°

°

°

×

°

°

×

×

×

×

×

°

°

×

°

°

°

×

°

×

°

×

×

°

°

×

×

°

×

°

°

×

°

×

°

°

°

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Simpel tilfældig eller systematisk udvælgelse

Enhederne i udvalgsrammen nummereres, og ved simpel tilfældig udvælgelse udtrækkes dernæst en række helt tilfældige numre (f.eks. ved computer-generering af tilfældige numre). Ved systematisk udvælgelse udtages i stedet enheder med et bestemt mellemrum, sådan som det er illustreret herunder. Mellemrummet bestem-mes ved at dividere antal enheder i udvalgsrammen med det ønskede antal i stik-prøven, og der startes ved et tilfældigt nummer mellem én og det, der skal springes med. De to måder kan som regel sammenlignes mht. sikkerheden i inferering til populationen.

proportional stratificeret udv lgelse
Proportional stratificeret udvælgelse

Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes simpelt og tilfældigt et antal enheder fra hvert strata, sådan at proportionerne svarer nøjagtigt til proportionerne i populationen/udvalgsrammen.I eksemplet her kunne der f.eks. være tale om en strataopdeling

på køn.

disproportional stratificeret udv lgelse
Disproportional stratificeret udvælgelse

Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes - f.eks. simpelt og tilfældigt - et antal enheder fra hvert strata, men sådan at proportionerne ikke svarer til propor-tionerne i populationen/udvalgs-rammen. Benyttes ofte, når et eller flere for analysen væsentlige strata indeholder for få observationer. Skal der i analysen f.eks. beregnes populationsgennemsnit for en variabel, vægtes analyse-enhederne, sådan at proportionerne igen passer med populationen.

klyngeudv lgelse
Klyngeudvælgelse

1. trin

2. trin

1

×

2

1

×

×

×

×

°

°

°

°

×

°

°

×

×

°

°

°

°

×

°

°

×

°

×

°

°

°

×

×

×

×

×

°

×

×

°

×

×

×

×

×

3

4

4

°

×

×

×

°

°

°

°

°

°

°

×

°

°

°

°

×

×

×

°

°

°

×

×

°

°

×

×

×

×

°

Ved klyngeudvælgelse inddeles populationen i et antal klynger (ofte bl.a. baseret på geografi), og til forskel fra stratificering udvælges tilfældigt et vist antal hele klynger. Er der tale om enkelttrins klyngeudvælgelse, udtages samtlige enheder i de udvalgte klynger til stikprøven. Er der derimod tale om flertrins klyngeudvælgelse, foretages der stikprøveudtagning fra de udtrukne klynger - f.eks. simpelt tilfældigt. Formålet ved klyngeudvælgelse er ofte at få bragt udgifterne ned ved at centrere interviewene på bestemte steder samt at sikre sig en bred geografisk dækning.

sandsynlighed
Sandsynlighed

Hvad betyder sandsynlighed, og hvordan knyttes den til forskellige typer af variabler?

  • Sandsynligheden af, at en hændelse vil indtræffe, er dens relative frekvens over et langt forløb.
  • Diskrete variable: Der knyttes sandsynligheder til hver enkelt hændelse i udfaldsrummet.
  • Kontinuerte variable: Der knyttes sandsynligheder til et intervaller af værdier.
  • Summen af sandsynligheder giver altid værdien 1.
grafisk visning af sandsynlighedsfordelinger
Grafisk visning af sandsynlighedsfordelinger

Sandsynlighedsfordelinger af diskrete variable vises med søjlediagrammer, mens sandsynlighedsfordelinger for kontinuerte variable vises med kurver.

Sandsynligheden aflæses direkte på højden af søjlen, f.eks. ca. 0,55 for ingen børn i en tilfældig familie.

Sandsynlighed for, at en tilfældig valgt person vil være mellem 20 og 50 år gammel er lig med det viste areal, ca. 0,45 (eller 45 pct.)

1,0

0,5

0

1

2

3

4

5+

0

20

50

Antal børn i familien

Alder

sampling distribution
Sampling distribution
  • Sampling distribution (eller sampling fordelingen) er en sandsynligheds-fordeling, der bestemmer sandsynligheder for værdier af en stikprøve-statistik – f.eks. gennemsnit, proportion, korrelationskoefficient eller regressionskoefficient.
  • Stikprøvestatistikken kan betragtes som en variabel, der varierer fra stikprøve til stikprøve, men hvor gennemsnittet af disse stikprøve-statistikker ved en uendelig lang række af stikprøver vil være lig med statistikken i populationen.
  • Standardafvigelsen til en sandsynlighedsfordeling af stikprøvestatistikker kaldes for standardfejlen.
  • Standardfejlen kan betragtes som den typiske fejl, man begår ved estimation af statistikken ved den respektive stikprøvestørrelse.
  • For gennemsnit er standardfejlen lig med:
den centrale gr nsev rdis tning central limit theorem
Den centrale grænseværdisætning(Central Limit Theorem)

For tilfældig stikprøveudtrækning gælder, at når stikprøve-størrelsen ’n’ vokser, så vil fordelingen af stikprøvegennemsnit ’ ’ tilnærme sig en normalfordeling.

  • Dette gælder uanset formen af populationens fordeling.
  • I de fleste tilfælde er en stikprøve på omkring 30 cases være nok til en god tilnærmelse til normalfordelingen af stikprøvegennemsnittene.
  • 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have et gennemsnit, der ligger højst to standardfejl fra populationsgennemsnittet.
  • Jo større stikprøve, jo mindre standardfejl og jo større præcision.

Tilsvarende gælder for andele. Andelen, der f.eks. angiver at ville stemme på Socialdemokratiet, vil ligesom et gennemsnit variere omkring den sande andel, og den vil fordele sig tilnærmelsesvist normalt, hvis der er tale om store stikprøver. Her defineres ’store’ stikprøver ved, at der skal være minimum 10 enheder i hver af de to grupper.

slide13

Normalfordelingen

Eksempler på forskellige normalfordelinger

Fra: http://espse.ed.psu.edu/statistics/statlets/free/WebStatFX.html

eksempel fra issp religion 1998
Eksempel fra ISSP Religion 1998

Disse andelsstørrelser vil variere fra én stikprøve til en anden. Nu er det sjældent, at man har mere end én stikprøve, men viden om denne variation mellem de hypotetisk gentagne stikprøver gør, at man kan udtale sig med en vis statistisk sikkerhed om andele i populationen.

hvor stor en andel tror p gud i populationen
Hvor stor en andel tror på Gud i populationen?

Andelen på 0,528 er det bedste bud på andelen i populationen, men hvor sikkert er det?

Man ved fra den centrale grænseværdisætning, at stikprøveestimatet ved gentagne stikprøveudtræk vil fordele sig tilnærmelsesvist ’normalt’, og man kan også anslå standardafvigelsen på denne hypotetiske fordeling. Denne kaldes, som nævnt, også for standardfejlen.

Standardfejlen approksimeres i til:

stikpr ve udtr kning
Stikprøve-udtrækning

Der findes på nettet en række forskellige sider, hvor der grafisk gives en pædagogisk visning af mekanismerne i stikprøveudtræk, og hvor der gives indblik i usikkerhedsaspekter.

Simulatoren til højre herfor er en af de absolut bedste (se link nedenfor!).

http://onlinestatbook.com/stat_sim/sampling_dist/index.html

udledninger af den centrale gr nsev rdis tning
Udledninger af den centrale grænseværdisætning

Omskrivning af en regel fra den centrale grænseværdisætning:

  • Følgende er direkte udledt fra sætningen: 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have en andel på den pågældende variabel, der ligger højst to standardfejl fra den sande andel.
  • Følgende kan udledes fra ovenstående: Hvis man går to standardfejl på hver side af andelen i stikprøven, vil man med 95 pct. sikkerhed indfange andelen i populationen.
andel i populationen der tror p gud
Andel i populationen, der tror på Gud

95 pct. sikkerhedsinterval for andele:

Læg mærke til, at det helt nøjagtigt er 1,96 standardfejl, der skal til for at ’indfange’ 95 pct., altså ikke præcis 2.

Intervallet kan udregnes til:

Med 95 pct. sikkerhed vil andelen, der tror på Gud, ligge mellem ca. 0,50 og 0,56. Dette giver et indblik i sikkerheden i den slags survey. Og det er mere dette, end det er de præcise talstørrelser, der skal bides mærke i her.

signifikanstest for andele
Signifikanstest for andele
  • 95 pct. sikkerhedsintervallet skred netop ind over andelen på 0,5. Dvs. med 95 pct. sikkerhed vil man ikke kunne sige, hvorvidt populationsandelen ligger på den ene eller anden side af de halvtreds, blot at den ligger ret tæt på.
  • Man kan også foretage en egentlig test af, om stikprøveresultatet er så meget større end 0,5, at man med en vis statistisk sikkerhed vil kunne afvise hypotesen om, at andelen ligger på 0,5 eller derunder.
  • Man skal først finde ud af, hvor langt ude de 0,528 ligger ift. 0,5, udtrykt i antal standardfejl. De 0,5 kaldes for nulhypotesen. Derefter kan man ved hjælp af normalfordelingens egenskaber finde sandsynligheden for, at man i stikprøven får et resultat på 0,528 eller endnu mere afvigende fra de 0,5, under forudsætning af at populationens andel faktisk er 0,5. Hvis den sandsynlighed er lille, dvs. hvis det ikke virker særligt sandsynligt, vil man afvise hypotesen om, at andelen i populationen er 0,5. Og havde man beregnet tilsvarende sandsynligheder for enhver nulhypotese mindre end 0,5, ville sandsynligheden blot være blevet mindre.
selve beregningen af testst rrelsen z
Selve beregningen af teststørrelsen (z)

Via nedenstående formel beregnes afstanden mellem nulhypotese og faktisk værdi, udtrykt i antal standardfejl (z):

Eller ved statistiske termer:

hvor sandsynlig er den beregnede testst rrelse
Hvor sandsynlig er den beregnede teststørrelse?

Under forudsætning af at nulhypotesen om en andel på 0,5 er korrekt, gælder følgende:

Sandsynligheden for at finde en andel i en stikprøve af denne størrelse, der afviger mindst lige så meget som de 0,528 fra nulhypotesen på 0,5 vil have en sandsynlighed på ca. 0,06.

Altså ikke overvældende sandsynligt, men dog heller ikke signifikant på 0,05-niveau.

http://davidmlane.com/hyperstat/z_table.html

opslag i z tabel som alternativ
Opslag i z-tabel som alternativ

Læg mærke til, at resultatet her er halvt så stort.

Det skyldes, at der her kun ses sandsynligheden for den ene ’hale’ af for-delingen.

Dette resultat skal altså ganges med 2.

http://www.osat.umich.edu/sixsigma/Reference/norm-tables.PDF

testen i excel
Testen i Excel

Nedenfor vises udskrift fra Excelprogram (inkl. eksempeltabel) til beregning af z-test for andele. Der indtastes blot tal for stikprøvestørrelse, observeret andel og nulhypotesens andel. Derefter beregnes testen. Normalt opererer man med et signifikansniveau på enten 0,01 eller 0,05.

http://home.clara.net/sisa/binohlp.htm

Hel test på internettet: