help statistiek l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Help! Statistiek! PowerPoint Presentation
Download Presentation
Help! Statistiek!

Loading in 2 Seconds...

play fullscreen
1 / 50

Help! Statistiek! - PowerPoint PPT Presentation


  • 382 Views
  • Uploaded on

Help! Statistiek!. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 18 april: “Welke toets wanneer?” 16 mei: “Lineaire regressie” (Lokaal 16 OC)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Help! Statistiek!' - jonathon


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
help statistiek

Help! Statistiek!

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

18 april: “Welke toets wanneer?”

16 mei: “Lineaire regressie” (Lokaal 16 OC)

20 juni: “Logistische regressie” (Lokaal 16 OC)

19 september: ”Survival analyse”

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post

DG Epidemiologie

lineaire regressie
Lineaire regressie
  • Wat is het?
  • Wanneer gebruiken we het (niet)?
  • Wat komt er allemaal bij kijken?
  • Waar komt de naam eigenlijk vandaan?
enkelvoudige lineaire regressie
Enkelvoudige lineaire regressie
  • Er is een continue responsievariabele Y
  • Er is een verklarende variabele X
  • We zijn geïnteresseerd in de relatie tussen Y en X
  • We beschikken over onafhankelijke waarnemingen
  • Een lineair verband lijkt redelijk

Bijvoorbeeld: systolische bloeddruk

Bijvoorbeeld: leeftijd

Relatie is niet symmetrisch!

lineaire regressie formule
Lineaire regressie (formule)
  • We schatten de populatierelatie
  • We nemen aan dat

Controleren!

Residuen normaal verdeeld rond leeftijds-

gemiddelde, met dezelfde spreiding

Rechtlijnig verband van de gemiddelden

de geschatte regressielijn
De geschatte regressielijn

Waarom is dit de “best

passende lijn”?

de geschatte lijn
De geschatte lijn
  • De populatie regressielijn wordt geschat met behulp van de kleinste kwadratenmethode: neem die lijn waarvoor de som van de gekwadrateerde residuen zo klein mogelijk is

Rond 1800

Gauss en Legendre

Astronomie

slide9

Residu e = verschil

tussen waargenomen

en voorspelde waarde

Minimaliseer

sbp 128 8 0 33 leeftijd bv de geschatte bloeddruk van een 70 jarige sbp 128 8 0 33 70 151 9
SBP = 128,8 + 0,33*leeftijd,bv, de geschatte bloeddruk van een 70-jarige:SBP = 128,8 + 0,33*70 = 151,9

Toelichting SPSS uitdraai

P < 0,05

de geschatte regressielijn12
De geschatte regressielijn

H0: β1 = 0 (geen lineair verband)

b0

0

slide13

ANalysis Of VAriance

  • De totale spreiding van SBP wordt gesplitst in een verklaard deel en een onverklaard deel (de residuen)
  • Er wordt getoetst of het verklaarde deel net zo groot is als het onverklaarde deel
  • De F-test is gelijkwaardig met de t-test voor β1 in een enkelvoudige lineaire regressie
slide14

,003

F = t²

,003

slide15
R is de multiple correlatiecoëfficiënt (gelijk aan de absolute waarde van r)
  • R square = R in het kwadraat =

SSregression /SStotal = de proportie verklaarde variantie

  • Adjusted R square: reëlere schatting van R² in de populatie
  • Standaard error of the estimate = gemiddelde grootte van een residu
controle van de aannames
Controle van de aannames
  • Alle paren waarnemingen (X,Y) zijn onafhankelijk van elkaar (externe informatie)
  • Het verband tussen E(Y) en X is lineair (strooiingsdiagram)
  • De residuen zijn normaal verdeeld (pplot)
  • De spreiding van de residuen is gelijk, ongeacht de grootte van X (scatter)
controle aannames
Controle aannames

De gebruikte testen zijn niet valide!

Overweeg een transformatie (bv logaritmisch) of

zoek naar een verbetering van je model

(toevoegen van variabelen)

betrouwbaarheidsintervallen gemiddelden
Betrouwbaarheidsintervallen(gemiddelden)

Breedte BI verschilt

per leeftijd

kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is
Kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is?
  • Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht
kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is26
Kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is?
  • Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht

man

vrouw

test van de richtingsco ffici nt gepoolde t test
Test van de richtingscoëfficiënt = gepoolde t-test

Gemiddelde vrouwen

154,97

Gemiddelde

mannen: 147,74

H0: β1=0

Maakt de gebruikte

codering iets uit?

vrouw

man

verklarende variabelen
Verklarende variabelen:
  • Continu: ok
  • Dichotoom: ok
  • Nominaal met meer dan twee categorieën: maak dummy’s (hulpvariabelen)
  • Ordinaal: als er sprake lijkt van een lineaire trend: ok, anders dummy’s
meervoudige lineaire regressie
Meervoudige lineaire regressie
  • Hoe berekenen we het effect van een variabele (X1) op Y terwijl we rekening willen houden met het effect van een tweede variabele (X2) op Y?
  • Maar eerst: waarom is het eigenlijk nodig om rekening te houden met X2?
conclusie van deze enkelvoudige regressie analyse
Conclusie van deze enkelvoudige regressie-analyse:
  • Hoe langer je studeert hoe lager je cijfer
  • ?????
  • Wat gebeurt er als we rekening houden met de vooropleiding van de respondenten?
conclusie van deze meervoudige regressie analyse
Conclusie van deze meervoudige regressie-analyse
  • In beide groepen, gevormd op grond van de vooropleiding, is een positief effect van studie-uren op het cijfer
  • Dit effect is in beide groepen ongeveer gelijk
  • Als we geen rekening houden met de vooropleiding, schatten we het effect van studie-uren op het cijfer totaal verkeerd
  • Vooropleiding wordt een confounder genoemd
slide36

Leeftijd verklaart ongeveer 3%

van de spreiding van bloeddruk

Equivalentie van F-test en t-test

Wat gebeurt er als we geslacht toevoegen?

slide39

Leeftijd en geslacht verklaren

samen ongeveer 5 % van de

spreiding van de bloeddruk

Meervoudige lineaire regressie

ANOVA toetst de H0 dat leeftijd

en geslacht samen niets verklaren

Geen equivalentie meer tussen

F-test en t-test(en)

T-test van geslacht toetst de H0 dat geslacht

niets verklaart, rekening houdend met leeftijd

Was 0,33

slide40

vrouwen (1)

mannen (0)

SBP = 129 + 0,3*leeftijd + 6*geslacht

slide41
NB
  • Voor een meervoudige lineaire regressie gelden dezelfde voorwaarden als voor een enkelvoudige lineaire regressie:

- onafhankelijke data

- lineair verband

- normaal verdeelde residuen

- homogene spreiding van de residuen

interactie
Interactie
  • Als het effect van een verklarende variabele beïnvloed wordt door een tweede verklarende variabele dan spreken we van interactie of effectmodificatie.
  • Bijvoorbeeld als het effect van leeftijd op de bloeddruk bij rokers anders is dan bij niet rokers, is er sprake van interactie.
  • In het lineair model wordt dan een interactieterm (bijvoorbeeld het product van leeftijd en roken) opgenomen.
model met interactie
Model met interactie

Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de

vergelijking voor niet rokers:

Y = β0 + β1*leeftijd + ε

Maar voor rokers:

Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε

= β0 + β2 + (β1 + β3)*leeftijd + ε

Als de coëfficiënt van de interactieterm (β3) significant is, lopen de

regressielijnen van rokers en niet-rokers niet parallel en spreken we van

interactie (ook wel effectmodificatie genoemd).

Als de interactieterm significant is, horen de bijbehorende hoofdeffecten

ook in het model!

hoe wordt een model opgebouwd
Hoe wordt een model opgebouwd?
  • Kijk eerst naar univariate analyses (welke variabelen hangen samen met Y?)
  • Selecteer variabelen die mogelijk een rol spelen in de multivariate analyse op grond van een ruime alfa (0,25) en theorie
  • Bouw het model stap voor stap op, te beginnen met de meest significante verklarende variabele
  • Kijk alleen naar interacties tussen variabelen die sterk significant zijn of waarvan je op grond van theorie of literatuur verwacht dat ze interacteren
de term regressie
De term “regressie”
  • Regressie = terugval
  • Wat heeft dat met een lineair verband te maken?
  • Onderzoek van Francis Galton naar de lengte van ouders en kinderen
regression to the mean
Regression to the mean

y = x

Valkuil:

Regressie naar het gemiddelde!

Francis Galton

Regression towards mediocrity in hereditary stature.

Journal of the Anthropological Institute 1886

geen normale lineaire regressie
Geen (normale) lineaire regressie
  • Y dichotoom
    • Wel / geen verbetering na 1 uur
  • Y categorisch (>2 categorieën)
  • Y ordinaal
  • Herhaalde waarnemingen
  • Overlevingsduren

Logistische regressie

Polytome logistische regressie

Ordinale logistische regressie

Repeated measures MANOVA

Mixed effects models

Multilevel analyse

Survival analyse

volgende keer
Volgende keer …
  • Woensdag 20 juni: Logistische regressie
  • Zie http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie/courses
  • Bedankt voor uw aandacht