Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester efterår 2007 Lektion 9, mandag d

Statistikog kvantitativ metodePolitik & Administration og Samfundsfag3. semester efterår 2007Lektion 9, mandag den 5. novemberSimpel lineær regression

Lineær regressionsanalyse • Analysemetode for intervalskalerede variable, hvor der ses på effekter fra en eller flere uafhængige variable på én afhængig variabel • Ofte benyttes lineær regression – på trods af det formelle krav om inter-valskalering – ifm. ordinalskalerede variable. Det gør man af to årsager: 1) analyse med f.eks. Gamma korrelationskoefficienter bliver ret vanskelige at have med at gøre, blot der inddrages nogle ganske få kontrolvariable på én gang i en analyse, hvilket normalt ikke er noget problem i lineær regression; 2) lineær regression er en temmelig robust metode, hvor begrænsede tilsidesættelser af de formelle krav ikke er noget problem. • Det er meget forskelligt, hvor meget man inden for samfundsvidenskaben accepterer at slække på kravet om intervalskalering, men det er i hvert fald ret almindeligt at benytte lineær regression til ordinalskalerede afhængige variable på syv kategorier eller mere (det gør Agresti & Finlay eksempelvis). Endvidere benyttes ofte indeks, der er fremstillet ud fra en serie ordinalskalerede variable, som afhængig variabel. Mht. de uafhængige variable stilles der færre mindre krav rent fordelingsmæssigt, og der er f.eks. Ikke noget minimumskrav til antallet af kategorier. Dikotome uafhængige variable er i øvrigt helt inden for rammerne at det formelt tilladelige, uanset måleniveau.

Den lineære funktion Lineær formel med én uafhængig variabel: Et ikke helt realistisk eksempel(Y = højde og X = alder):

Eksemplet omformet til noget lidt mere realistisk Man får aldrig punkter (undersøgelsesenheder), der alle ligger præcis på linjen, så her er et lidt mere virkelighedstro eksempel. Endvidere kan man så omforme den lineære funktion: hvor E(Y) står for det forventede (expected) Y eller gennemsnittet af Y givet X.

Populationslinje og estimeret linje Den sande regressionslinje i populationen benytter som vanligt græske bogstaver for koefficienterne: Man har imidlertid alene stikprøvedata, hvorudfra der kan estimeres en regressionslinje:

Hvor skal man lægge linjen? Problemet er nu bare, hvordan man finder ud af præcist, hvor regressionslinjen skal ligge. Dvs. hvor vil man gætte på, at populationes sande linje ligger? ? Med andre ord: man skal have fundet a og b i nedenstående estimation. hvor a er Y-intercept (el. konstantleddet) og b er regressionskoefficienten (hældningskoefficienten).

Ordinary Least Squares (OLS) ’Mindste kvadraters metode’, som det hedder på dansk, beregner en lineær regressionslinje på en sådan måde, at summen af de kvadrerede fejlled mellem regressionslinjen og observationerne minimeres.

OLS giver under visse forudsætninger det bedste resultat Ordinary Least Square-metoden giver under visse forudsætninger det bedste resultat. Man siger, at OLS er BLUE (Best Linear Unbiazed Estimator, hvor ’Best’ står for minimum varians). På baggrund af stikprøven med de 17 personer, der er plottet ind i diagrammet, kan der med OLS-metode beregnes følgende funktion for linjen:

Advarsel angående ekstrapolering Det kan sjældent forsvares at beregne Y-værdier for X-værdier, der ikke eksisterer i datamaterialet. Således heller ikke her: Et nyfødt barn kan f.eks. estimeres til at måle ca. 90 cm.

Der beregnes tre forskellige ’sum of squares’ Total Sum of Squares: Sum of Squared Errors: Regression Sum of Squares: Forklaringskraften (eller determinationskoefficienten) kan beregnes ud fra:

Afhængig variabel Y Gennemsnit for afhængig var. Uafhængig variabel X Hvordan de forskellige ’sum of squares’ hænger sammen med regressionslinjen

Pearson’s r og den standardiserede regressionskoefficient • Der kan foretages hypotesetest og beregnes sikkerhedsinterval for hældningskoefficienten b, men det er svært at gennemskue, om der er tale om svag eller stærk sammenhæng, ligesom det er vanskeligt at sammenligne én effekt med en anden. • Man kan imidlertid beregne en korrelationskoefficient, Pearson’s r, som fortæller om styrken i en lineær sammenhæng. • Denne kan antage værdier mellem –1 og +1. • Pearson’s r er i den bivariate situation lig med en såkaldt ’standardiseret regressionskoefficient’, som kan tolkes som den forventede ændring i antal standardafvigelser på Y, når X stiger med én standardafvigelse.

Eksempler på Pearson’s r r=0,3 r=0,0 r=0,1 r=0,5 r=0,7 r=0,9

Justeret r2 (justeret for antal forklarende variabel i modellen - bruges næsten altid i stedet for den ujusterede). r2 (forklaringskraften - kan højst blive lig med 1 = 100 %). SPSS-resultater fra alder og højde-eksemplet(første del) Den første tabel er i de fleste tilfælde uvæsentlig.

(Regression, Error & Total) Signifikansniveau for modellen, beregnet ved F-test (uden for dagens pensum - for bivariat model giver den samme resultat som signifikansniveauet til regressionskoefficienten.) SPSS-resultater fra alder og højde-eksemplet(anden del)

Standardfejl for estimatet for alder Signifikansniveau for estimatet for alder, beregnet ved t-test Når alderen stiger med ét år, stiger højden typisk med ca. 4,9 cm SPSS-resultater fra alder og højde-eksemplet(anden del) Standardiseret (beta-)koefficient(her en meget stærk positiv sammenhæng)

Med indflydelsesrig case Enkelte indflydelsesrige cases kan forvride regressionslinjen Oprindeligt eksempel

Formelle forudsætninger for at inferere fra stikprøve til population med lineær regression • Gennemsnittet af Y, givet X, er lineært relateret til X. Der skal være tale om en lineær sammenhæng. • Den betingede standardafvigelse er identisk for hver X-værdi. Dette kaldes også for varianshomogenitet eller homoskedasticitet i modsætning til heteroskedasticitet. • Den betingede fordeling af Y for hver X-værdi er normal. • Stikprøven er tilfældigt udtrukket. • Metoden er dog forholdsvis robust overfor afvigelser fra ovennævnte forudsætninger.

Eksempel fra den virkelige verden Procentandel ældre i kommunen har en negativ effekt på udgifterne til ældreomsorg pr. ældre borger. Dvs. jo flere ældre, jo ’billigere’ bliver hver af de ældre for kommunen. To mulige forklaringsfaktorer: • Stordriftsfordele • Når krybben er tom, bides hestene

I det bivariate tilfælde er andel forklaret varians lig med den standardiserede koefficient opløftet i anden potens. SPSS resultater(første del)

SPSS resultater(anden del) Er der enkelte ’outliers’ langt fra regressionslinjen? Det forventes, at residualerne fordeler sig normalt omkring regressionslinjen. Stort set alle forventes derfor at ligge på plus/minus tre standardafvigelser fra linjen. Her er det da også kun to ud af landets kommuner, der falder udenfor, og ingen falder ekstremt langt væk fra linjen.

Er der normalfordelte fejlled? Herunder fremgår, at der ikke er ekstreme afvigelser fra normalfordelte residualer. Hvis residualerne var helt normalfordelte, ville histogrammet svare til den indtegnede normalfordelingskurve, og i Normal Propability Plot’et ville observationerne ligge lige på diagonallinjen.

Er der ens betingede varianser (homoskedasticitet)? Ideelt set skal observationerne fordele sig som et ensartet bælte omkring nul på Y-aksen.

Er sammenhængen lineær? Der skal ikke her være alt for tydelige og store afvigelser fra en lineær sammenhæng. Man kunne også benytte det tidligere viste scatterplot over sammenhængen, i stedet for at se på den afhængige mod de forventede værdier på den afhængige. I den multiple regression har dette plot større selvstændig værdi.

Et andet regressionseksempel!På data fra spørgeskemaundersøgelse. Der ses her på uddannelsens effekt på selvplacering i samfundet (fra ISSP Ulighed 1999). Til venstre ses et vanskeligt tolkbart scatterplot. Til højre et omformet, hvor punkterne er kommet i større eller mindre beholdere, alt efter hvor mange de er. Dette er langt lettere at tolke.

SPSS tabel-output fra eksemplet

Plot til vurdering af varianshomogenitet

Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester efterår 2007 Lektion 9, mandag d