Beschrijvende en inferentiële statistiek - PowerPoint PPT Presentation

redford
beschrijvende en inferenti le statistiek n.
Skip this Video
Loading SlideShow in 5 Seconds..
Beschrijvende en inferentiële statistiek PowerPoint Presentation
Download Presentation
Beschrijvende en inferentiële statistiek

play fullscreen
1 / 72
Download Presentation
Beschrijvende en inferentiële statistiek
224 Views
Download Presentation

Beschrijvende en inferentiële statistiek

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Beschrijvende en inferentiële statistiek College 8 – Anouk den Hamer – Hoofdstuk 11 (11.5 geententamenstof)

  2. Vandaag • Oude tentamenvragen • Chi-square toets

  3. Kritieke t-waarde?

  4. Vandaag • Chi-square toets

  5. Inferentiële statistiek: overzicht

  6. Chi-square toets • Met een chi-square toets kun je twee of meer categorische variabelen vergelijken • Categorische variabele: variabele die uit verschillende categorieën bestaat

  7. Vorige keer • We keken of het hebben van een kat invloed heeft op geluk. • Soort variabelen? • Categorisch (wel/geen kat) en continu (geluk)

  8. Vandaag • Twee categorische variabelen vergelijken

  9. Voorbeeld vergelijken categorische variabelen • Een onderzoeker wilt weten of flirtgedrag afhankelijk is van opleidingsjaar. • Zou er verschil bestaan in het flirtgedrag tussen eerste-, tweede- en derdejaars? • Maw: bestaat er een associatie tussen flirtgedrag en opleidingsjaar? opleidingsjaar flirtgedrag

  10. Opleidingsjaar: eerste-, tweede-, derdejaars • Flirtgedrag: nooit, zelden, af en toe, vaak, heel vaak

  11. H0: opleidingsjaar heeft geen invloed op flirtgedrag • Ha: hoe hoger het opleidingsjaar, hoe meer flirtgedrag • Of: • H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie) • Ha: flirtgedrag en opleidingsjaar zijn afhankelijk van elkaar (er bestaat een associatie)

  12. Chi-square test Test van onafhankelijkheid: - H0 : variabelen zijn onafhankelijk - Ha : variabelen zijn afhankelijk Doel test: als de variabelen onafhankelijk zijn, hoe groot is dan de kans dat we vinden wat we vinden?

  13. Om te zien of er wel of geen associatie is vergelijk je de: • Observed counts: de waardes die je vindt in je steekproef • Expected counts: de waardes die je zou verwachten als de nulhypothese waar zou zijn H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie)

  14. Kruistabel met observed counts

  15. Kruistabel met expected count 765.5 Expected count = (rij totaal x kolom totaal) / totaal aantal respondenten Expected count eerstejaars die nooit flirten = (3534 x 12211) / 56373 = 765.5

  16. Kruistabel met expected counts

  17. Observed en expected counts

  18. Waarom? • Waarom observed en expected counts bekijken? • Als de observed counts erg afwijken van de expected counts dan zou er een associatie kunnen bestaan tussen flirtgedrag en opleidingsjaar. • Associatie significant? Chi-square test.

  19. Chi-square • De chi-square statistic geeft aan hoe veel de observed counts van de expected counts afwijken. • In SPSS vind ik dat de chi-square 26978 is. • Hoe hoger de chi-square, hoe groter de kans dat er sprake is van een significante associatie

  20. Observed en expected counts

  21. Hoe weet je of de chi-square significant is? • Je rekent eerst de degrees of freedom (df) uit: • df = (rij – 1 ) x (kolom – 1) • (3 – 1) x (5 – 1) = 8

  22. Degrees of freedom • Vrijheidsgraden in chi-square toets: het minimaal aantal cellen waarvan je de uitkomst moet kennen om de overige cellen te kunnen berekenen.

  23. df = (rij – 1 ) x (kolom – 1) • Df = (3 – 1) x (5 – 1) = 8 • We moeten dus van 8 cellen de waardes weten willen we de andere cellen kunnen berekenen

  24. Chi-square significant? • Tabel C (p. 736) • In die tabel zie je welke waarde de chi-square minimaal aan moet nemen wil deze significant zijn (de kritieke waarde).

  25. Met df = 8 moet de chi-square minimaal 15.51 zijn (als je met α = 0.05 toetst) • Onze chi-square is 26978 en dus significant

  26. Dus chi-square • De chi-square statistic geeft aan hoeveel de observed counts van de expected counts afwijken. • Als deze significant afwijken, dan bestaat er een associatie tussen de twee variabelen. • Want: dat wat je vindt in je steekproef (observed counts) is anders dan wat je op basis van de nulhypothese had verwacht (expected counts). • Daardoor kun je de nulhypothese verwerpen als je een significante chi-square vindt.

  27. Onze nulhypothese zei dat opleidingsjaar en flirtgedrag onafhankelijk van elkaar waren. Dat ze dus niks met elkaar te maken zouden hebben. • Echter significante chi-square, dus nulhypothese verwerpen.

  28. In SPSS Assumptie chi-square toets: iedere cel moet een expected value hebben van minimaal 5. Zo niet, dan is je steekproef te klein.

  29. Conclusie voorbeeld • Als flirtgedrag onafhankelijk is van opleidingsjaar, dan is het erg onwaarschijnlijk dat we een chi-square van 26978 vinden (kans namelijk kleiner dan 5%). • Het flirtgedrag is inderdaad afhankelijk van het opleidingsjaar. Eerste- en tweedejaars flirten vaker dan derdejaars (dat zagen we in de tabel met de observed counts). • Er bestaat dus een significante associatie tussen flirtgedrag en opleidingsjaar.

  30. Eigenschappen chi-square • Chi-square is altijd positief getal • Hoe hoger de chi-square, hoe groter het bewijs tegen H0 : onafhankelijkheid • De chi-square is een goodness-of-fit statistic: het geeft aan hoe goed de expected values (de H0) de observed values hebben voorspeld • De laagst mogelijke waarde van chi-sqaure is 0, in dat geval zijn de observed counts en de expected counts precies gelijk.

  31. Tabel C Hoe groter het verschil tussen de observed values en de expected values, hoe meer bewijs we hebben tegen H0. Daarom kijk je alleen naar de rechterstaart.

  32. Homogeniteit • De chi-square test wordt vaak “test of homogeneity”genoemd, omdat je wilt weten of de expected counts en observed counts homogeen (hetzelfde) zijn • Als ze homogeen zijn dan zijn de variabelen waar je op getest hebt onafhankelijk van elkaar

  33. Associatie • Met een chi-square toets weet je of er een statistisch significante associatie is, je weet echter nog niet hoe sterk deze associatie is. • Een hoge chi-square betekent niet direct een sterke associatie! • Waarom? Omdat grotere steekproeven ook grotere chi-squares hebben.

  34. Verschillende manieren om te zien hoe sterk de associatie is: • Kruistabel percentages • Adjusted residuals • Correlatie (kan alleen bij ordinale variabelen, niet bij categorische variabelen)

  35. Eerste manier om sterkte associatie te zien: kruistabel percentages

  36. Is hier sprake van een sterke associatie? Nee. Er is geen verschil tussen mannen en vrouwen in wat ze stemmen.

  37. Tweede manier om sterkte associatie te zien: adjusted residuals • Met de adjusted residuals vinden we welke cellen “verantwoordelijk” zijn voor de associatie • Adjusted residual: hoeveel standaardfouten de observed count van de expected count afwijkt

  38. Adjusted residuals • Residual: verschil tussen de observed count en de expected count, dus observed count – expected count. • Standardized residual: residual / se • Waarom zou je de gestandaardiseerde residual (ook wel adjusted residual genoemd) willen weten? • Omdat je dan weet hoeveel standaardfouten de observed count van de expected count afwijkt en je daarmee kunt interpreteren hoe sterk de associatie in die cel is. • Als de adjusted residuals groter zijn dan 3 of -3 dan is er een associatie in die cel.

  39. Dus alleen bij de democraten is er een verschil tussen stemgedrag van mannen en vrouwen. • Bij de vrouwen werd er 4 se’s meer op democraten gestemd dan verwacht. En bij mannen 4 se’s minder dan verwacht. • Stemgedrag is dus afhankelijk van geslacht, ook al zien we alleen een effect bij de democraten.

  40. Derde manier om sterkte associatie te zien: correlatie