1 / 37

Help! Statistiek!

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Help! Statistiek!. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten? 21 mei : Multiple testing

kurt
Download Presentation

Help! Statistiek!

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Help! Statistiek! Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten? 21 mei : Multiple testing 18 juni : Statistische aspecten van de probiotica studie Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie

  2. Overzicht • Hoe toetsen we tegenwoordig? • Relatie tussen onderzoeksvraag, hypotheses en toetsen • Wat zijn de problemen bij de interpretaties van toets resultaten? - Hoe kunnen we effect groottes erin betrekken • Klinische relevantie • Statistische significantie • Wat is de relatie met de power? • Bayesiaanse benadering • Samenvatting: hoe moeten we de test resultaten interpreteren?

  3. Hoe toetsen we tegenwoordig? • Formulering van een onderzoeksvraag. • Formuleren van H0 • Formuleren van H1. • Uitspraken als “Verwerp H0 ten gunste van H1” of “Verwerp H0 niet” Dit betekent: H1 weerspiegelt de onderzoeksvraag • Definieren van significantie niveau P(verwerp H0|H0 waar): 5% • Uitvoeren van de toets • Berekenen van p-waarde • Verwerpen H0 als p-waarde <0.05

  4. theorie T Theorie S Theorie T Data patroon P Data patroon P Popper: falsificatie principe Als theory T waar is  data patroon P moet optreden Men kan nooit een theorie bewijzen, slechts falsificeren! Observatie van data P  theorie T is waar Foute conclusie Als data P niet optreedt  theorie T is niet waar

  5. Toetsen: twee soorten fouten •  = P(verwerp H0 | H0 is waar) •  = P(Verwerp H0 niet| H0 is niet waar)

  6. Toetsen: p-waarde  = P(verwerp H0 | H0 is waar)  = P(Verwerp H0 niet| H0 is niet waar) De p-waarde is de kans op de gevonden waarde in de steekproef of nog extremer, gegeven dat H0 waar is Verwerp H0 als p-waarde klein is

  7. Problemen bij interpreteren van toets resultaten Vraag interpretatie van de p-waarde Is de p-waarde de kans dat H0 waar is?

  8. Problemen bij interpreteren van toets resultaten Vraag interpretatie van de p-waarde Is de p-waarde de kans dat het resultaat toevallig optreedt?

  9. Problemen bij interpreteren van toets resultaten Vraag interpretatie van de p-waarde Hoe kan je de p-waarde dan wel interpreteren? P(resultaat of extremer| H0 waar) p-waarde als bewijs tegen H0

  10. Problemen bij interpreteren van toets resultaten Vraag over interpretatie van (1 - p-waarde) Is dit de kans dat een significant resultaat gevonden wordt bij het herhalen van het experiment? NEE Power: kans op onderscheiden van effect gegeven dat H0 niet waar is Let elke keer op de conditie!!!!!

  11. Problemen bij interpreteren van toets resultaten • Problemen vanwege hanteren van criteria die op onzekerheid berusten: we hebben te maken met kansen op resultaten onder verschillende hypothesen. • We willen redeneren alsof onze conclusies zeker zijn. • p > 0.05: er is geen effect; geen significant resultaat • p <= 0.05: er is een effect; significant resultaat • Maar we moeten aldoor bewust zijn van Significant resultaat : fout van de eerste soort Geen significant resultaat: fout van de tweede soort

  12. Popper : falsificatie principe Als H0 waar is  Patroon P is waarschijnlijk onder H0 Als data P waarschijnlijk is onder H0  H0 is waar Fout Als data P niet waarschijnlijk is onder H0 H0 is niet waar Ook fout H0 H1 H0 H1 H0 Data patroon P Data patroon P Data patroon P

  13. Problemen bij interpreteren van toets resultaten Tukey (1991): H0 is altijd fout Er zijn altijd wel kleine verschillen tussen de effecten van twee behandelingen te vinden Als je voldoende data verzamelt zal je altijd wel de H0 verwerpen effect groottes en klinische relevantie

  14. Problemen bij interpreteren van toets resultaten Identieke effect groottes kunnen leiden tot verschillende conclusies vanwege verschillende p-waarden, en gebruik van vast significantie niveau Veronderstel : 5% significantie niveau p-waarde van 0.049: verwerp H0 P-waarde van 0.051: Verwerp H0 niet

  15. Problemen bij interpreteren van toets resultaten Hoe kunnen we p-waarde interpreteren? p-waarde als bewijs tegen H0 p-waarde van 0.049 en p-waarde van 0.051: Vergelijkbare resultaten Effect sizes and statistical significance

  16. Schatten van effect groottes Geen toetsuitspraak zonder schatting van effect groottes Voorbeelden effect groottes • d = (A- B)/, • A- B • Correlatiecoefficient • odds ratio

  17. Schatten van effect groottes Toets probleem: H0 : A- B = 0 (effect grootte = 0) p-waarden : bewijs tegen H0: Vraag: Zijn de data verenigbaar met H0?

  18. Schatten van effect groottes Schattings probleem Vraag: Welke effect groottes zijn verenigbaar met de data? Punt schatting: verschil van de gevonden gemiddelden in de steekproef interval schatting: het betrouwbaarheidsinterval BI 95% BI: punt schatting  2*SE(effect grootte)

  19. Betrouwbaarheidsintervallen • Gerelateerd aan hypothese toetsen • Interval rondom punt schatting van effect grootte: Welke effect groottes zijn verenigbaar met de data? • Klassieke definitie: interval met random onder- en bovengrenzen: The kans dat het interval de ware effect grootte bevat is 95%. • Een meer aansprekende definitie: interval van niet verworpen nulhypothesen Bayesiaanse definitie: De kans dat de effect grootte in het interval ligt is 95%

  20. Betrouwbaarheidsintervallen Voorbeeld 1: Vergelijking van 2 behandelingen A en B m.b.t. bloeddrukverlaging na 1 maand RCT: 20 proefpersonen (A:10 ; B:10) Resultaten: Steekproefgemiddelde verlaging voor A :20 Steekproefgemiddelde verlaging voor B : 17 Verschil 3; Standard error : 3.5 95% Betrouwbaarheidsinterval: 3  2*3.5 : (-4 ; 10)

  21. Betrouwbaarheidsintervallen 95% betrouwbaarheidsinterval: 3  2*3.5 : (-4 ; 10) Verzameling van niet verworpen nulhypotheses Verzameling van effect groottes die verenigbaar zijn met de data Conclusie???

  22. Betrouwbaarheidsintervallen Voorbeeld 2: Vergelijking van 2 behandelingen A en B m.b.t. wachttijden palliatieve behandeling voor botmetastasen CRT: 1000 respondents: (A: 500; B: 500) Resultaten Steekproefgemiddelde voor A: 8 dagen Steekproefgemiddelde voor B: 5 dagen Verschil: 3 dagen; Standard error: 0.2 95% betrouwbaarheidsinterval: 3  2*0.2 : (2.6; 3.4)

  23. Betrouwbaarheidsintervallen 95% betrouwbaarheidsinterval: 3  2*0.2 : (2.6; 3.4) Verzameling van niet verworpen nulhypotheses Verzameling van effect groottes die verenigbaar Zijn met de data Conclusie???

  24. Betrouwbaarheidsintervallen, klinische relevantie en statistische significantie p-waarden en effect groottes zijn beide essentieel: • Geen significante verschillen, maar wel klinisch relevante verschillen in het betrouwbaarheidsinterval: meer informatie is nodig om conclusies te trekken (voorbeeld 1) • Significante verschillen, maar geen klinisch relevante verschillen in het betrouwbaarheidsinterval: de bevindingen hebben geen klinische implicaties; er is teveel informatie (voorbeeld 2).

  25. Power berekeningen • Nodig voor balans tussen klinische relevantie and statistische significantie • Essentiele stap bij studie design: Wat zijn relevante verschillen die men wil aantonen? Na keuze toets, geef input: • Significantie niveau α • Gestandaardiseerde effect grootte (A- B)/ • Steekproefgrootte  Power (1-β)

  26. Power  stijgt  power stijgt

  27. Power effect size stijgt  power stijgt

  28. Power n stijgt  power stijgt

  29. Problemen bij interpreteren van toets resultaten (Falk and Greenbaum, 1995): Illusion of probabilistic proof by contradiction: Het toetsen van hypotheses en wetenschappelijke gevolgtrekkingen zijn verschillende zaken: We berekenen P(data|H0 is waar): de p-waarde Wat willen we eigenlijk weten? Wat is P(H0 is waar|data)? Bayesiaans 29

  30. Bayesiaanse statistiek Andere opvatting over kans Meer een subjectieve maat (in tegenstelling tot relatieve fequenties) Trekken van conclusies zijn gebaseerd op data en eerder opgedane kennis/ervaring (prior informatie) (in tegenstelling tot alleen data)

  31. Bayesiaanse statistiek Regel van Bayes Laat H1, H2,…, Hk elkaar uitsluitende en uitputtende gebeurtenissen zijn, en laat D een andere gebeurtenis zijn: Dan geldt voor elke j = 1,2,…,k, P(D|Hj)P(Hj) P(Hj|D) = -------------------- ∑ P(D|Hi)P(Hi) i

  32. Posterior Prior Bayesiaanse statistiek Regel van Bayes : voorbeeld Laat H0 and H1 twee elkaar uitsluitende en uitputtende gebeurtenissen zijn (H0 : ziek en H1 : niet ziek), Laat D de test uitslag zijn. P(test| ziek)P(ziek) P(ziek|test) = -------------------------------------------------- P(test|ziek)P(ziek) + P(test|niet ziek)P(niet ziek) Prior informatie: P(H0) = P(ziek) Posterior informatie: P(ziek|test uitslag) Hoe verandert de prior in the posterior door de data?

  33. Posterior prior Bayesiaanse statistiek Regel van Bayes : voorbeeld Laat H0 and H1 twee elkaar uitsluitende en uitputtende hypotheses zijn (H0 : θ = 0 en H1 : θ = 1), Laat D de data zijn. P(D| θ=0)P(θ=0) P(H0|D) = -------------------------------------------------- P(D|θ=0)P(θ=0) + P(D|θ=1)P(θ=1) Prior informatie: P(H0) = P(θ=0) Posterior informatie: P(H0|D) Hoe verandert de prior in the posterior door de data?

  34. Bayesiaanse statistiek Voordelen • Sluit beter aan bij onze natuurlijke manier van formuleren van een probleem en kennis vermeerdering Nadelen • Verkrijgen van prior informatie • prior kennis is verschillend voor verschillende experts: verschillende priors kunnen tot verschillende conclusies leiden

  35. Bayesiaanse statistiek Kenmerkend: Populatie parameters (bijvoorbeeld effect groottes) zijn random variabelen met onbekende verdelingen. Dus niet vast!!! Men praat over priors: P(H0) and P (H1) Test procedure: Hoe onwaarschijnlijk is H0 gegeven de data: P (H0|D)? In hoeverre bevestigt de data H1 : P(H1|D)? Schatten: 95% Betrouwbaarheidsinterval De kans dat de ware effect grootte in het interval ligt is 95%

  36. Samenvatting: hoe moeten we toetsresultaten interpreteren? • Het niet verwerpen H0 betekent niet: H0waar, maar wel: onvoldoende bewijs tegen H0 • Het betrouwbaarheidsinterval geeft aan of niet signficantie ook ondersteuning van H0 betekent. • Power berekeningen zijn essentieel bij study design, maar niet voor het bepalen of niet-significante resultaten H0 ondersteunen; daarvoor hebben we het betrouwbaarheidsinterval

  37. Samenvatting: hoe moeten we toetsresultaten interpreteren? • Toetsresultaten zeggen niets over de kans dat H0 of H1 waar is, maar wel iets over de kans dat we de steekproefuitkomsten hebben (of extremer) gegeven de hypothese: P(data|H0) is niet P(H0|data) (bayesiaans) • Bepalen van klinische relevantie is verschillend van bepalen van statistische significantie: Schatten van effect groottes is zeer belangrijk, en verschillend van statistisch toetsen! • De alternatieve hypothese is niet hetzelfde als een wetenschappelijke theorie • H0 is slechts een hypothese

More Related