Download
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning) PowerPoint Presentation
Download Presentation
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning)

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning)

184 Views Download Presentation
Download Presentation

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning)

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning) 1: Mer regresjonskritikk ►Innflytelsesrike enheter ►Multikollinaritet Oppsummeringer av forutsetningene 2: Samvariasjon pluss pluss – en oppklaring 3: Semesteroppgave: Tillit til EU 4: Oppgaver JFRYE2005

  2. Regresjonskritikk – oppsummering fra forrige gang Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1: Krav til spesifikasjon av modellen 2: Gauss-Markov-kravene 3: Normalfordelte feilledd 4: Andre vurderinger Innflytelsesrike enheter Multikollinaritet (Kapittel 4 i Hamilton) JFRYE2005

  3. ’Uteliggere’ Hva er en ’uteligger’? En enhet som har en uvanlig verdi på en variabel NB1: Relative vurderinger NB2: En enhet kan være uteligger i en sammenheng – men ikke nødvendigvis også i andre sammenhenger JFRYE2005

  4. Uteliggerproblematikken Relevant begrep både i forhold til original-variablene og feilleddene. Desto mer relevant: En selvsagt tendens til at en enhet som har ’uteliggende’ verdi på en eller flere av X’ene, også blir uteligger i feilledd-fordelingene. JFRYE2005

  5. Vi fokuserer primært på utelliggere i feilledd-fordelingene, ettersom disse skaper flere problemer for OLS-regresjonen: Heteroskedastisitet Ikke-normalfordelte feil (Men fortsatt er det ofte nyttig å gå tilbake til X-fordelingene, for å ’forstå’ og løse problemet) JFRYE2005

  6. Uteliggere og heteroskedastisitet Tendens til sammenfall – men ikke med nødvendighet JFRYE2005

  7. Absoluttverdien av ei (Basert på regresjonen i tabell 3.2 i Hamilton) JFRYE2005

  8. Uteliggere og normalfordeling Enda sterkere tendens til sammenfall (– men fortsatt ikke med absolutt nødvendighet) JFRYE2005

  9. Diagram av residualen viser: Tunge halar, mange utliggarar og svakt positiv skeiv fordeling

  10. Innflytelsesrike enheter Skiller analytisk mellom Uvanlige enheter Og enheter som faktisk har stor innflytelse på resultatet Selv om det altså ofte er de samme enhetene… JFRYE2005

  11. 120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005

  12. 120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005

  13. 120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005

  14. Innflytelse ► En enhet har innflytelse dersom regresjonsresultatet endrar seg når enheten utelates ► Noen enheter har uvanlig stor innflytelse på grunn av ♦ Uvanleg stor y-verdi ♦ Uvanleg stor verdi på ein x-variabel ♦ Uvanlege kombinasjonar av variabelverdiar

  15. EN DIGRESJON… • For det første: henvisning & takk til Erling Berge (igjen: se hans forelesninger, for en utvidet gjennomgang, eller for en alternativ fremstilling, eller som repitisjon) • Regresjonens dialekter – som man skal/bør/må lære seg. • Eks.: Påvirkning, case, skeivhet… JFRYE2005

  16. Mål på innflytelsesrike enheter DFBETAS Leverage Cook’s D JFRYE2005

  17. DFBETAS • Vi ser om eit case har påverknad ved å samanlikne regresjonar med og utan eit bestemt case. Ein kan t.d. • Sjå på skilnaden mellom bk og bk(i) der case nr i er utelate i estimeringa av den siste koeffisienten. • Denne skilnaden målt relativt til standardfeilen til bk(i) vert kalla DFBETASik

  18. DFBETASik se(i) er residualen sitt standardavvik når case nr i er utelate frå regresjonen RSSk er Residual Sum of Squares frå regresjonen av xk på alle dei andre x-variablane

  19. DFBETASik : bk bk(i) outlier One case may make a lot of difference

  20. Kva er ein stor DFBETAS? • DFBETASik vert rekna ut for kvar uavhengig variabel og kvart einaste case. Vi kan ikkje inspisere alle verdiane • Tre kriterium for å finne dei store verdiane vi treng sjå på (ingen av dei treng vere problematiske) • Ekstern skalering: lDFBETASikl > 2/ • Intern skalering: Q1-1.5IQR < lDFBETASikl < Q3 + 1.5IQR (alvorleg utliggjar i box-plott av DFBETASik) • Gap i fordelinga av DFBETASik

  21. Potensiell påverknad: LEVERAGE • Den samla påverknaden frå ein bestemt kombinasjon av x-verdiar på eit case måler vi med hi ”hatt-observatoren” • hi varierer frå 1/n til 1. Den har eit gjennomsnitt på K/n (K = # parametrar) • SPSS rapporterer den sentrerte hi dvs. (hi – K/n), vi kan kalle denne for hci

  22. Kva er stor verdi av leverage? • Slik som med DFBETAS kan det stillast opp alternative kriterium. Dei er alle avhengig av utvalsstorleiken n. • Dersom hi > 2K/n (eller hci > K/n) finn vi dei ca 5% største hi ; alternativt • Dersom max (hi) ≤ 0.2 har vi ikkje problem • Dersom 0.2 ≤ max (hi) ≤ 0.5 er der ein viss risiko for problem • Dersom 0.5 ≤ max (hi) har vi truleg eit problem

  23. Sentrert leverage (hci) frå regresjonen i tabell 3.2 i Hamilton Max av hci er 0.102

  24. The difference between influence and leverage Figur 4.14 i Hamilton

  25. Leverage observatoren finst i mange andre case observatorar • Variansen til den i-te residualen • Standardisert residual (*ZRESID i SPSS) • Studentifisert residual (*SRESID i SPSS) • og hugs at standardavviket til residualen er

  26. Total påverknad: Cook’s Di • Cook’s distanse Di måler påverknad på heile modellen, ikkje på dei einskilde koeffisientane slik som DFBETASik

  27. Kva er ein stor Di ? • Det kan vere verd å sjå på alle • Di > 1 alternativt • Di > 4/n, gir dei ca 5% største Di • Sjølv om eit case har låg Di kan det likevel vere slik at det verkar inn på storleiken til einskildkoeffisientar (har stor DFBETASik)

  28. Cook’s distanse Di frå regresjonen i tabell 3.2 i Hamilton Sjå også tabell 4.4 (s133) i Hamilton

  29. Hva er årsaken bak innflytelsesrike enheter? 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter: Transformasjoner Robust regresjon JFRYE2005

  30. Vurderingsstrategier Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder alle tre indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005

  31. Multikollinaritet JFRYE2005

  32. Multikollinearitet • svært høge korrelasjonar mellom x-variablar • sjekk korrelasjonar mellom parameterestimat • sjekk om toleransen (den delen av variasjonen i x som ikkje er felles med andre variablar) er mindre enn t.d. 0,1 • VIF= variansinflasjonsfaktor= 1/toleranse • dersom multikollinearitet skuldast kvadrering av variablar eller interaksjonsledd er det ikkje problematisk

  33. Toleranse • Mengda av variasjon i ein variabel xk som er unik for variabelen vert kalla toleransen til variabelen • La R2k vere determinasjonskoeffisienten i regresjonen av xk på dei andre x-variablane. Dei andre x-variablane forklarer andelen R2k av variasjonen i xk. • Da er 1- R2k den unike variasjonen, dvs. Toleransen = 1- R2k • Ved perfekt multikollinearitet vil R2k = 1 og toleransen = 0 • Låge verdiar av toleransen gjer regresjonsresultata mindre presise (større standardfeil)

  34. VariansInflasjonsFaktoren (VIF) • Her er 1/toleransen = 1/(1-R2k) = VIF • Om alt anna er likt vil lågare toleranse (større VIF) hos xk gi høgare standardfeil for bk [den aukar med ein faktor lik kvadratrota av (VIF)] • standardfeilen til regresjonskoeffisienten bk kan skrivast

  35. Indikatorar på multikollinearitet • Beste indikatoren er toleransen eller VIF (denne er basert på R2k ) • Andre indikatorar er • Korrelasjon mellom einskildvariable (upåliteleg) • Inklusjon / eksklusjon av einskildvariablar gir store endringar i effektane til andre variablar • Uventa forteikn til effekten av ein variabel • Standardiserte regresjonskoeffisientar større enn 1 eller mindre enn -1 • Korrelasjon mellom parameterestimat

  36. Toleranse og VIF frå regresjonen i tabell 3.2 i Hamilton

  37. Kva er for låg toleranse? Kvadratrota av VIF Når R2k > 0,9 er toleransen < 0,1 og VIF > 10 Multiplikatoren for standardfeilen er da kvadratrota av VIF (ca 3.2)

  38. Når er multikollinearitet eit problem? • Det er ikkje eit problem dersom årsaka er kurvelinearitet eller interaksjonsledd i modellen. Men vi må i testinga ta omsyn til at parameterestimat for variablar med høg VIF er upresise. Vi testar dei som gruppe med F-testen • Når det skuldast at to variablar måler same omgrep kan den eine droppast eller dei kan kombinerast til ein indeks • Det er eit problem dersom vi treng estimat av variablane sine separate effektar (når kunnskap om deira samla effekt ikkje er nok)

  39. OPPSUMMERING AV ’PROBLEMENE’ JFRYE2005

  40. HUSK: TRE TYPER PROBLEMER De mest korrekte (sannsynlige) estimatene? De mest effektive estimatene Troverdige t- og F-tester? (Gode nok estimater) JFRYE2005

  41. Konsekvensar av problem (Hamilton, s. 113) I TILLEGG: INNFLYTELSESRIKE ENHETER