De bootstrap
Download
1 / 21

De bootstrap Een fundamentele inleiding in de inductieve statistiek - PowerPoint PPT Presentation


  • 172 Views
  • Uploaded on

De bootstrap Een fundamentele inleiding in de inductieve statistiek. Leidend voorbeeld. Onderzoeksvraag : Drinken mannelijke R u G studenten gemiddeld meer bier dan vrouwelijke R u G studenten? Onderzoek : Trek steekproef van 50 m en 50 v en meet biergebruik

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'De bootstrap Een fundamentele inleiding in de inductieve statistiek' - prewitt


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

De bootstrap

Een fundamentele inleiding in de inductieve statistiek


Leidend voorbeeld
Leidend voorbeeld

Onderzoeksvraag: Drinken mannelijke RuG studenten gemiddeld meer bier dan vrouwelijke RuG studenten?

Onderzoek: Trek steekproef van 50 m en 50 v en meet biergebruik

Je vindt: m  gemiddeld 8.98 glazen bier per week v  gemiddeld 7.14 glazen bier per week

Conclusie: Mannelijke studenten drinken gemiddeld 1.84 glazen meer dan vrouwelijke

Inductieve Statistiek: Hoe zeker weten we dit? Wat zijn onze onzekerheidsmarges?


Op grond van steekproeven schattenwe mannelijke studenten: gemiddeld 8.98 glazen bier, vrouwelijke studenten: gemiddeld 7.14 glazen bier.

Maar hoe zeker weten we dit?Wat als we een andere steekproef zouden hebben gehad?

GEEN IDEE !

maar, statistiek is er voor om je enig idee te geven.


Een gedachte-experiment vooraf:

  • Stel we kennen volledige populatie:

  • Van alle 10200

  • Mann. studenten

  • aan RuG kennen

  • we ‘biergebruik’

  • (en idem van

  • vrouwelijke studenten)


10

9

7

7

7

9

6

11

7

8

10

6

7

populatie

10

10

10

10

10

10

9

9

9

8

8

8

8

8

9

6

7

8

11

11

11

11

11

9

10

10

10

10

10

10

6

8

7

9

6

7

7

10

7

7

7

8

9

12

10

10

9

8

7

8

9

9

gem. = 9.0

11

8

12

8

7

6

11

8

9

8

10

Wat kan er gebeuren als we een random steekproef van 50 m. studenten trekken?

steekproef (n=50)

gem. = 8.98

2e steekproef (n=50)

gem. = 9.08


Na bijv 1000 steekproeven

Populatiegemiddelde

... na bijv. 1000 steekproeven ...

1. Steekproefgemiddelde varieert!

2. Meestal tussen 8.7 en 9.3

 “steekproefgemiddelde is vaak ongelijk aan populatiegemiddelde, maar wijkt maar in 5% van de steekproeven meer dan 0.3 af ”



Het populatiegemiddelde ligt maar in 5% van de steekproeven meer dan 0.3 af van het steekproefgemiddelde

  • Stel: steekproefgemiddelde is 8.8.

  • Uitspraak: we zijn 95% zeker dat populatiegemidelde ligt tussen 8.8±0.3, dus tussen 8.5 en 9.1

  • Gevonden dankzij: marge van steekproefgemiddelde rondpopulatiegemiddelde waarin 95% van steekproefgemiddelden valt


  • Dus nodig: marge van steekproefgemiddelde rond populatie-gemiddelde waarin 95% van steekproefgemnvalt

  • Te verkregen via herhaald stkprftrekken uit populatie

  • Maar: 1000 maal een (n=50) steekproef trekken??

    Praktijk:

  • 1 (n=50) steekproef!!!

  • Idee: gebruik alleen huidige steekproef om schatting te krijgen van marges


nu

toen

Vergelijk ... de Baron Munchausen …

… trok zichzelf uit moeras aan de lussen van zijn laarzen (bootstraps)


Bootstrap p rocedure
Bootstrap-procedure

  • Doel

    • Verkrijgen van marge van steekproef- gemiddelde rond populatiegemiddelde

  • Nodig

    • weten wat andere steekproeven voor gemiddelden kunnen opleveren

  • Concrete vraag

    • wat wordt gemiddelde als score van iedere persoon in huidige steekproef vervangen door score van willekeurig persoon uit populatie?

  • Wat is willekeurig persoon uit populatie?


Bootstrap filosofie:

  • Wat is willekeurige persoon?

  • Doet er niet toe: Alleen diens scores nodig!

  • Wat zijn willekeurige scores?

    • scores die voorkomen in steekproef! (realistisch!)

    • sommige scores gangbaarder dan andere!

  •  willekeurigescores:scores die je willekeurig uit eigen steekproef trekt!


10

10

9

9

9

9

9

9

8

8

9

9

9

9

8

8

10

10

8

8

7

7

10

10

10

10

10

10

9

9

8

8

8

8

8

8

9

9

9

9

7

7

8

8

10

10

11

11

10

10

9

9

11

10

10

10

10

11

9

9

8

8

9

9

9

9

9

9

7

7

7

7

10

10

9

9

8

8

9

9

12

12

10

10

10

10

9

9

8

8

9

9

8

8

9

9

9

9

score

freq

7

3

8

8

9

19

9

9

Bootstrap steekproef

8

8

8

10

16

9

11

2

7

9

10

9

12

2

9

9

10

Bootstrap aanpak:

Steekproef

gem. = 8.98

9

8

9

9

10

10

10

9

10

12

7

11

11

8

10

9

10

7

10

9

10

9

12

10

9

8

9

10

10

10

9

gem. = 9.02

Maak alternatieve steekproef door willekeurig scores uit oorspronkelijke te trekken  frequenties ongeveer zelfde!


Bootstrap aanpak:

Herhaal deze procedure vaak (bijv. 1000 keer):

1. Trek nieuwe steekproef met teruglegging van grootte n uit oorspronkelijke steekproef

2. Bereken gemiddelde

“Bootstrap- steekproef”

  • Resultaat: 1000 bootstrapsteekproefgemiddelden

  • Geeft idee van gebruikelijke marge rond steekproef-gemiddelde bij herhaald trekken uit steekproef (als stand-in voor populatie)!

  • We nemen aan dat dit idee geeft van gebruikelijke marge rond populatiegemiddelde!


Voorbeeld:

Gemiddelden van 100 bootstrapsteekproeven:


frequentie

bootstrapsteekproefgemiddelde

originele steekproefgemiddelde (8.98)

Histogram van gemiddelden van 100 bootstrapstkprn

In 95% van bootstrapstkprn ligt gemiddelde tussen 8.8 en 9.2.

marge (95%) rond originele steekproef-gemiddelde is dus 0.2


plug-in voor populatie

  • (95%)marge van bootstrapsteekproeven rondoriginele steekproefgemiddelde is 0.2

  • Aanname: scoreverdeling in steekproef = scoreverdeling in populatiedus variatie in bootstrapsteekproeven even groot als in steekproeven uit populatie


95% betrouwbaarheidsinterval

Conclusie:

“voor plug-in populatie liggen 95% van steekproefgemiddelden binnen marge 0.2 rond plug-in gemiddelde”

“voor echte populatie liggen 95% van steekproefgemiddelden binnen marge 0.2 rond populatiegemiddelde”

  • Slotconclusie:

  • we vonden in steekproef 8.98

  • in 95% van gevallen wijkt steekproefgemiddelde niet meer dan 0.2 af van populatie-gemiddelde

  • dus zal populatiegemiddelde met 95% zekerheid niet onder8.78 of boven 9.18 hebben gelegen!


  • 95% betrouwbaarheidsinterval (95%bhi):

  • = steekproefgemiddelde ± gevonden marge

  • Wat wordt bedoeld met 95% ?

  • per steekproef uit populatie: 95% kans stkprfgemiddelde binnen marge rond pop.gem.

    Praktijk: 100 steekproef uit verschillende popul.

  • steekproefgemiddelde ca. 95 binnen (telkens andere) marge rond populatiegemiddelde

  • omgekeerd: populatiegemiddeldeca. 95 binnen 95%bhi

  • met 95%BHI zit je dus ca. 95 goed (en 5 fout…!)


Voorbeeld van 100 steekproeven en 95 bhi uit populatie met zelfde gemiddelde
Voorbeeld van 100 steekproeven en 95%bhiuit populatie met zelfde gemiddelde

Meeste intervallen dekken populatiegemiddelde, maar 6 zitten er naast


Bootstrap voor allerlei maten
Bootstrap voor allerlei maten

  • Bootstrap-procedure alom toepasbaar:

    • mediaan, Q1, trimmed mean, correlatie, regressiegewicht, etc., etc.

  • Aanpak in het algemeen:

    • trek groot aantal bootstrapsteekproeven (bijv. 1000) uit steekproef

    • bereken gewenste maat in alle bootstrapstkprn

    • bepaal gewenste percentieleninterval(benadering van betrouwbaarheidsinterval)

  • Voor bepaalde maten (efficiëntere) ‘klassieke aanpak’ beschikbaar


ad