SOS3003:
This presentation is the property of its rightful owner.
Sponsored Links
1 / 32

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (7. forelesning) Hva er logistisk regresjon? Hvorfor logistisk? PowerPoint PPT Presentation


  • 115 Views
  • Uploaded on
  • Presentation posted in: General

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (7. forelesning) Hva er logistisk regresjon? Hvorfor logistisk? Hva er forskjellene på OLS- og logistisk regresjon? Kort om det matematiske fundamentet Hvordan tolke logistiske koeffisienter? Logit’en Odds Sannsynligheter

Download Presentation

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (7. forelesning) Hva er logistisk regresjon? Hvorfor logistisk?

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

SOS3003:

Anvendt statistisk dataanalyse i samfunnsvitenskap

(7. forelesning)

Hva er logistisk regresjon?

Hvorfor logistisk?

Hva er forskjellene på OLS- og logistisk regresjon?

Kort om det matematiske fundamentet

Hvordan tolke logistiske koeffisienter?

Logit’en

Odds

Sannsynligheter

Noen andre relevante momenter (…som vi sparer til senere forelesning...)

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

HVA ER LOGISTISK REGRESJON?

Logistisk regresjon er en justering/videreutvikling/variant av OLS-regresjon – den grunnleggende logikken ligger fast:

Hva skjer med Y når X endrer seg?

Hvordan påvirkes et sosialt fenomen av andre sosiale fenomener?

Alt som er sagt på kurset tidligere, er (med noen unntak) fortsatt relevant

Ikke gjør dette mer komplisert enn det trenger å være!

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

HVA ER LOGISTISK REGRESJON?

Når skal man bruke logistisk regresjon?

Et spørsmål om Y-variabelens egenskaper

Forutsetningen for OLS-regresjon er at Y er en kontinuerlig variabel på intervall- eller forholdstallsnivå

(… men også tilfeller der man forutsetter at det som strengt talt er en variabel med ordinaltallsnivå, likevel kan behandles som om den var på intervallnivå)

Logistisk regresjon kan derimot anvendes også på Y-variabler som er på nominal- eller ordinalnivå

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

DEN AVHENGIGE VARIABELEN I LOGISTISK REGRESJON

Y har bare to verdier: 0 eller 1

Eks.:

Ap-velger (1) eller ikke (0)

Sosiolog (1) eller statsviter (0)

Religiøs (1) eller ikke-religiøs (0)

Den logistiske regresjon beregner sannsynligheten for p(y = 1)

(hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.)

NB: Skillet mellom sannsynlighet og empirisk utfall

(jfr. skillet mellom predikert og observert verdi)

Hvis den ikke har disse verdiene i utgangspunktet, så må variabelen kodes om.

NB: Kun to – 2 – verdier (som ikke er overlappende, men som er utfyllende)

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

Dvs. – man tar en omvei via ’L’

Den logistiske regresjon beregner sannsynligheten for p(y = 1)

(hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.)

I praksis beregner man den naturlige logaritmen til oddsen for p (y=1)

ln(O)

(Men - kjenner man ln(O) kan man regne om til O og p)

Konvensjon at man skriver L i stedet for y i regresjonsligningen

L = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

NB: SKILLET MELLOM OLS- REGRESJON OG LOGISTISK REGRESJON:

KUN ET SPØRSMÅL OM Y

INGEN FORSKJELL MHT. X-ENE

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

HVORFOR LOGISTISK REGRESJON?

Hvis man bruker OLS-regresjon på en dikotom avhengig variabel (0 el. 1) får man to problemer.

1: Urealistiske prediksjoner over 1 eller under 0

2: Heteroskedastisitet

LOGISTISK REGRESJONEN LØSER BEGGE DISSE PROBLEMENE

NB: Ikke dramatiske forskjeller – Hamilton (s. 218) beskriver OLS-regresjon som en ’quick & dirty’-variant av logistisk regresjon når man har en dikotom Y.

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

Predikert y under 0 for vanlige verdier på x-variabelen

Sprednngsplott med regresjonslinje. Figur 7.1 Hamilton


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

HVA ER ANNERLEDES MED LOGISTISK REGRESJON?

1: Annen grunnleggende logikk – koeffisientene har en annen mening

2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’

3: R2 erstattes med andre mål på modellens forklaringskraft

4: Andre signifikanstester

T-testen erstattes med Wald

F-testen erstattes med endring i maximum likelihood-testen

5: Andre vurderinger av feilleddene

Kravet om homoskedastisitet forsvinner

6: Andre vurderinger av innflytelsesrike enheter

7: ’Ny’ problemstilling: Diskriminasjon

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

TILLIT TIL POLITIET

(OMGJORT TIL DIKOTOM VARIABEL; 1 = HAR TILLIT, 0 = LAV TILLIT

NB: ’BINARY LOGISTIC’ I SPSS

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

DEN MATEMATISKE LOGIKKEN BAK LOGISTISK REGRESJON

(Jfr. matte-bolken forrige gang – spesielt tallet ’e’ (2,718))

I logistisk regresjonen beregner man ikke hvor mye Y endrer seg for hver enhets endring i X.

I stedet beregner man hvor mye den naturlige logaritmen til oddsen for Y=1 endrer seg for hver enhets endring i X

L = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e

ln (O) = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e

ln (p/q) = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e

Ikke så kryptisk som det høres ut som…

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

Et tenkt bivariat eksempel

Y = Tillit til politiet

Omkodet fra den opprinnelige variabelen:

1 = Høy tillit (fra 5 til 10 på 1-10-skalaen)

0 = Lav tillit (fra 1 til 5 på 1-10-skalaen)

X1 = Utdanning (antall år etter v.g.)

p (y = 1)

L = ’Logit’en’ – den naturlig logartimen til oddsen for (y=1):

L = ln(O) = ln(p/q))

L = b0 + b1X1

La oss si at b0 = 1 og b1 = 0,5

Hvis X1 = 1: L = 1 + (0,5 * 1) = 1,5.

Da vet vi at oddsen for Y = 4,48 (Fordi: e1,5 = 4,48)

Da vet jeg at p ≈ 0,82(Fordi: 0,82 / 0,18 ≈ 4,48)

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

Konsekvensene er bl.a….

Modellen er fortsatt linjær i parametrene (og dermed er de matematiske kravet om additivitet tilfredsstilt)

Men: Substansielt sett får vi kurvilinjære sammenhenger – dvs. at effekten av X varierer ut fra verdiene på de andre X’ene

Hvorfor?

Fordi effekten av en økning på 1 i L avhenger av opprinnelig verdi på L

Hvis L øker fra 0 til 1: p øker fra 0,50 til 0,73

Hvis L øker fra 1 til 2:p øker fra 0,73 til 0,88

Hvis L øker fra 2 til 3:p øker fra 0,88 til 0,95

Hvis L øker fra 3 til 4:p øker fra 0,95 til 0,98

Hvis L øker fra 4 til 5:p øker fra 0,98 til 0,99

Hvis L øker fra 10 til 11:p øker fra 0,99995 til 0,99998

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

Konsekvensene er bl.a….

Alle X-Y-relasjonene blir i praksis samspillsrelasjoner:

Effekten av en ehets økning av X avhenger både av ’utgangsverdien’ av X og av verdiene på alle de andre X’ene

Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5

JFRYE2005


Konsekvensene er bl a desto bedre 0 p 1

Konsekvensene er bl.a….

Desto bedre: 0 < p < 1

JFRYE2005


Sorry men det krever en viss innsats dvs praktisk regne velser for forst logikken helt fullt

SORRY…

…men det krever en viss innsats – dvs. praktisk regneøvelser – for å forstå logikken helt & fullt…

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

MEN HELDIGVIS…

…er det fortsatt mulig å tolke en logistisk regresjonsmodell rimelig meningsfullt uten inngående matematiske ferdigheter…

JFRYE2005


Over til kjappversjonen hva tolke tallene i spss output en

Over til kjappversjonen:

Hva tolke tallene i SPSS-output’en?

JFRYE2005


Tre tolkninger 1 logit ene 2 odds oddsratio 3 sannsynlighetene

Tre tolkninger:

1: Logit’ene

2: Odds / oddsratio

3: Sannsynlighetene

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

1: TOLKNINGER AV LOGIT’EN

Vanskelig å tolke direkte.

A: Fortegnene på den enkelte X (B-verdiene)

+ = positiv relasjon

0= ingen relasjon

- = negative relasjon

B: Predikert L

L > 0: p > 0,50

L = 0: p = 0,50

L < 0:p < 0,50

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)

Matematisk sett…

Utgangspunktet er logit-formelen:

L = ln(P/1-P) = b0 + b1X1 + b2X2

Man kan ta antilogaritmen (dvs. ’finne eksponenten’) til uttrykkene på begge sidene av denne ligningen, og uttrykket vil fortsatt være gyldig

Antilogarimen til ln(P/1-P) = P/1-P

Antilogarimen til b0 + b1X1 + b2X2 = eb0 + b1X1 + b2X2

Dermed: P/1-P = e b0 + b1X1 + b2X2

= e b0 * e b1X1 * e B2x2 (ettersom ln(m + n) = ln(m) * ln(n)

Ergo: Effekten av hver variabel får man ved å ta antilogaritmen av koeffisienten

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)

Oddratio (eb) er oppgitt i den siste kolonnen av SPSS-utskriften

(Exp)B

(Exp)B > 1  øker oddsen

(Exp)B = 1  ingen endring (samme funksjon som 0 i additive modeller)

(Exp)B < 1  minsker oddsene

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)

Tolkning som prosent:

((eb - 1) * 100)= prosentvis økning/reduksjon i odds

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)

Oddsratio

Sammenligninger mellom to oddsene for to forskjellige grupper, f.eks. for kvinner og menn, eller for folk med høyere utdanning enn andre:

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

3: TOLKNINGER AV SANNSYNLIGHETER

NB: Ikke-linjær og ikke-additiv tolkning

– effekten i form av sannsynligheter må identifiserer for et gitt sett av verdier på de andre variablene

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

3: TOLKNINGER AV SANNSYNLIGHETER

P = 1 / (1+ e-L)

Sett inn verdier for alle andre X

Maksimumsverdier

Gjennomsnittsverdier

Minimumsverdier

Lag en graf for hvordan Y endres for ulike X

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

JFRYE2005


Sos3003 anvendt statistisk dataanalyse i samfunnsvitenskap 7 forelesning hva er logistisk regresjon hvorfor logisti

ANDRE MOMENTER

2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’

3: R2 erstattes med andre mål på modellens forklaringskraft

4: Andre signifikanstester

T-testen erstattes med Wald

F-testen erstattes med endring i ’maximum likelihood’

5: Andre vurderinger av feilleddene

Kravet om homoskedastisitet forsvinner

Kravet om normalfordelte feil forsvinner

6: Andre vurderinger av innflytelsesrike enheter

7: ’Ny’ problemstilling: Diskriminasjon

JFRYE2005


  • Login