1 / 30

Help! Statistiek!

Help! Statistiek!. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 20 juni: Logistische regressie (Lokaal 16 OC)

Download Presentation

Help! Statistiek!

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 20 juni: Logistische regressie (Lokaal 16 OC) 19 september: Survival analyse (Lokaal 3215-126) 17 oktober: Over steekproefopzet en steekproefgrootte 21 november: Hoe gaan we om met ontbrekende waarnemingen? Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie

  2. Overzicht Inleiding Welke soort onderzoeksvragen Waarom geen ‘gewone’ lineaire regressie het model Interpretatie de gewone kruistabel met risicomaten het model met één factor (dichotoom) als verklarende variabele het model met één covariaat (continu) als verklarende variabele Schatten en toetsen Goodness of fit model selectie regressiemodellen voor andere onderzoeksvragen

  3. onderzoeksvraag Vraagstellingen: Wat zijn voorspellers voor het optreden van een taalprobleem bij jonge kinderen (1-6 jaar) Is er een relatie tussen enerzijds het optreden van een taalprobleem, en anderzijds een zekere testuitslag van het kind of het geboorte-gewicht Algemeen: Relatie tussen een dichotome response variabele (Y) enerzijds continue en categoriale variabelen (X) anderzijds

  4. onderzoeksvraag Logistisch regressiemodel: Statistisch modelleren van relatie tussen een dichotome response variabele (Y) continue en categoriale variabelen (X) anderzijds Belangrijk: Eerst tekenen dan rekenen!!

  5. onderzoeksvraag Plaatje suggereert: kinderen zonder taalprobleem hebben gemiddeld hoger geboortegewicht

  6. Waarom geen gewone lineaire regressie? Lineair regressiemodel (Y continu): Yi = β0 + β1Xi + εi Y|X = β0 + β1Xi By Y : dichotoom: Y|X = P(Y= 1|X)= π(x)

  7. Waarom geen gewone lineaire regressie? Bij Y = dichotoom: Modelleren van π(x) Tekenen: Plot proportie tegen X (gewichtklasse) Geen lineair verband 0  proportie  1

  8. Waarom geen gewone lineaire regressie? Lineair regressiemodel (Y continue): Yi = β0 + β1Xi + εi εi ~ N(0, 2) By Y dichotoom: Y|X = P(Y= 1|X)= π(x) Y|X ~ Bin(π(x))

  9. Het logistisch regressiemodel Gebruik een logit transformatie voor π(x) = π π Logit(π) = ln(Odds) = ln 1 - π π ln = β0+ β1x1+ β2x2+ … + βpxp = S 1- π π Logit(π) = S = eS= exp(S) 1-π

  10. Het logistisch regressiemodel Modelleren van logit: ln (π/(1- π)) Tekenen: Plot logit tegen geboortegewichtklasse lineair verband - < logit < 

  11. Het logistisch regressiemodel logit(π) = S = β0+ β1x1+ β2x2+ … + βpxp -  < logit(π) < + exp(S) 1 π = 1- π = 1+ exp(S) 1+ exp(S) 0  π  1

  12. Het logistisch regressiemodelModelveronderstellingen Onafhankelijke waarnemingen Lineair verband tussen logit (ln(Odds)) en de verklarende variabelen Checken!!!!

  13. Interpretatie kruistabel Is de screeningstest een voorspeller voor taalproblemen? Odds voor test = - 12/69 = 0.17 Odds voor test = + 23/46 = 0.50 Odds Ratio OR = (23/46) / (12/69) = 2.875

  14. Interpretatie kruistabel Odds Ratio is iets anders dan Relatief Risico!!! Risico voor test = - = 12/81 = 0.15 Risico voor test = + = 23/69 = 0.33 Relatief risico RR = 0.33/0.15 = 2.25 Alleen bij kleine prevalentie: OR  RR

  15. Interpretatie logistisch model Is de screeningstest (een dichotome factor) een voorspeller voor taalproblemen? Y : taalprobleem X : test resultaat, positief (x =1) of negatief (x = 0) π logit(π) = ln(Odds) = ln = β0 + β1x = S 1- π For x = 0: ln(Odds0) = β0 Odds0 = exp(β0) For x = 1: ln(Odds1) = β0 + β1 Odds1 = exp(β0 + β1) Odds1 exp(β0 + β1) OR = = = exp(β1) Odds0 exp(β0)

  16. Interpretatie logistisch model Is de screeningstest een voorspeller voor taalproblemen? Resultaten van een logistische regressie-analyse in SPSS schatting van OR schatting van odds0

  17. Interpretatie logistisch model Is geboortegewicht (een continue verklarende) een voorspeller voor taalproblemen? Y : taalprobleem X : geboortegewicht π logit(π) = ln(Odds) = ln = β0 + β1x = S 1- π Vergelijking kinderen met geboortegewicht 2 kilo met kinderen die bij de geboorte 4 kilo zijn : eenheid is dus kilo’s!!!

  18. Interpretatie logistisch model Vergelijken van kinderen met 2 kilo als geboortegewicht met kinderen met 4 kilo als geboortegewicht For x = 2: ln(Odds2) = β0+2β1 Odds2 = exp(β0 + 2β1) For x = 4: ln(Odds4) = β0 + 4β1 Odds4 = exp(β0 + 4β1) Odds4 exp(β0 + 4β1) OR = = = exp(2β1) Odds2 exp(β0+ 2β1) Let op: hoogte OR hangt af van de eenheden van x !!!! OR 4 kilo t.o.v 2 kilo

  19. Interpretatie multiple logistisch model Model met 2 verklarende variabelen: Y = taalprobleem (1 = ja, 0 = nee) X1 = test uitslag (+ = 1, - = 0) X2 = geboortegewicht kind in kilo’s Gewichtsgecorrigeerde OR van test uitslag: 2.888 ln(Odds) for test - : -1.355 – 0.125 * gewicht ln(Odds) for test+ : -1.355 +1.061– 0.125 * gewicht Voor testuitslag gecorrigeerde OR van gewicht

  20. Interpretatie multiple logistisch model Als we verwachten dat effect gewicht verschillend is voor beide test resultaten: Model met 2 verklarende variabelen en interactieterm: Y = taalprobleem (ja = 1, nee = 0) X1 = test uitslag (+ = 1, - = 0) X2 = gewicht kind in kilo’s X1*X2 = interactieterm gewicht *testuitslag

  21. Interpretatie multiple logistisch model Schattingen: Test result - : S = -1.734 - 0.005*gewicht OR(gewicht) = 0.995 Test result +: S = -1.734 +1.679 - 0.005*gewicht -0.197*gewicht OR(gewicht) = 0.995*0.821 = 0.817 OR(test result) = 5.358 voor gewicht = 0!

  22. Schatten van de parameters In gewone lineaire regressie :kleinste kwadraten methode Algemener: maximum likelihood methode Likelihood functie: Kans op de data als functie van de onbekende parameters. Methode: Deze kans maximaliseren. De parameters als functie van de data die de hoogste waarde opleveren voor de likelihoodfunctie zijn de maximum likelihood schatters: ML-schatters

  23. Toetsen van hypothesen omtrent model parameters Net als bij gewone regressie: H0: er is geen verband, of 1 = 0, of exp(1) = 1 H1: er is verband, of 1  0, of exp(1)  1 Methode: Wald test Likelihood ratio test

  24. Wald test Vergelijking van de ML schatting met zijn standard error (b- β) /se(b) ~ N(0, 1) In SPSS: wordt kwadraat genomen (2-verdeling)

  25. Likelihood ratio test Deze test is gebaseerd op verschil van de ln(likelihood) voor twee modellen. Model 1: klein model (zeg alleen constante) Model 2: klein model + 1 term (bijvoorbeeld test uitslag) Likelihood van model 2 is altijd minstens zo groot als dat van model 1( het kleinere model)! (vergelijk residuele standaardafwijking in gewone lineaire regressie) -2ln(Lmodel1) + 2ln(Lmodel2) ~ 2-verdeling (1) In SPSS: bij step wise regression

  26. Likelihood ratio functies als maten voor Model fit Deviance: -2ln(Lmodel1) + 2ln(Lmodel2) Proporties verklaarde variatie: Cox and Snell R2 en Nagelkerke R2: Deze maten zijn functies van de verschillen in likelihood

  27. Andere maat voor model fit Hosmer and Lemeshow test H0 : het model past Voor grote p-values: de nulhypothese wordt niet verworpen.

  28. Model selectie Selectie van variabelen op basis van theorie en literatuur Bekijk de correlaties tussen de variabelen: bij hoge correlaties: beslis welke het klinisch relevantst is, en maak een keuze. Test alle variabelen in een enkelvoudig model (univariaat) met α<=0.25 Behoud alle variabelen waarvan ‘bewezen’ is dat ze er toe doen (zowel op basis van theorie als op p-waarde) Stop de geselecteerde variabelen er één voor één in. Evalueer het model per stap met de deviance en andere statistics en check de tekens en kijk naar relevante effect sizes! Uiteindelijk neem interactie-termen op (op basis van theorie en common sense)

  29. Model selectie Een goed model is goed interpreteerbaar Goede model fit Check ook de robustheid van de schattingen!

  30. Regressiemodellen voor andere onderzoeksvragen By Y met meer dan 2 categorieën: Het polytome logistische regressiemodel (of nominale logistische regressiemodel) Bij Y waarvan de categorieën geordend zijn: het ordinale logistische regressiemodel Survival data: Y is het wel of niet optreden van een event en er zijn gecensureerde waarnemingen: Survival modellen, zoals bijvoorbeeld het Cox regressiemodel. Volgende keer!

More Related