Simpel lineær regression Plan & Miljø, forår 2008 Onsdag den 23. april

Simpel lineær regressionPlan & Miljø, forår 2008Onsdag den 23. april

Denne gang • Introducerende om lineær regression • Pearson’s r korrelationskoefficient og den standardiserede regressionskoefficient • Formelle forudsætninger for lineær regression • Spredningsdiagrammer og lineær regression i SPSS

Hvad er lineær regression? • En eller flere uafhængige variabler forklarer variation på en afhængig variabel • I princippet kræves der intervalskalerede variabler • Kravene til den afhængige variabel er strammere. Denne bør kunne antage et minimum af forskellige værdier, jævnfør de formelle forudsætninger for lineær regression. Nogle siger 7, men der er egentlig ikke nogen statistisk begrundelse for lige præcis det tal.

Den lineære funktion Lineær formel med én uafhængig variabel: Et ikke helt realistisk eksempel(Y = højde og X = alder):

Eksemplet omformet til noget lidt mere realistisk Man får aldrig punkter (undersøgelsesenheder), der alle ligger præcis på linjen, så her er et lidt mere virkelighedstro eksempel. Endvidere kan man så omskrive den lineære funktion: Eller: hvor e står for ’error’ og Y-hat står for den forventede værdi af Y givet X.

Ordinary Least Squares (OLS) Ordinary Least Squares (OLS) eller Mindste kvadraters metode, beregner en lineær regressionslinje på en sådan måde, at summen af de kvadrerede fejlled mellem regressionslinjen og observationerne minimeres.

OLS giver under visse forudsætninger det bedste resultat Ordinary Least Square-metoden giver under visse forudsætninger det bedste resultat. Man siger, at OLS er BLUE (Best Linear Unbiazed Estimator, hvor ”Best” står for minimum varians i parametrene). På baggrund af stikprøven med de 17 personer, der er plottet ind i diagrammet, kan der med OLS-metode beregnes følgende funktion for linjen:

Advarsel angående ekstrapolering Det kan sjældent forsvares at beregne Y-værdier for X-værdier, der ikke eksisterer i datamaterialet. Således heller ikke her: Et nyfødt barn kan f.eks. estimeres til at måle ca. 90 cm.

Der beregnes tre forskellige Sum of Squares Total Sum of Squares: Sum of Squared Errors: Regression Sum of Squares: Forklaringskraften (eller determinationskoefficienten) kan f.eks. beregnes som:

Afhængig variabel Y Gennemsnit for afhængig var. Uafhængig variabel X Hvordan de forskellige ”Sum of Squares” hænger sammen med regressionslinjen

Pearson’s r og den standardiserede regressionskoefficient • Der kan foretages hypotesetest og beregnes sikkerhedsinterval for hældningskoefficienten b, men det er svært at gennemskue, om der er tale om svag eller stærk sammenhæng, ligesom det er vanskeligt at sammenligne én effekt med en anden • Man kan imidlertid beregne en korrelationskoefficient, Pearson’s r, som fortæller om styrken i en lineær sammenhæng. • Denne kan antage værdier mellem –1 og +1. • Pearson’s r er i den bivariate situation lig med en såkaldt standardiseret regressionskoefficient, som kan tolkes som den forventede ændring i antal standardafvigelser på Y, når X stiger med én standardafvigelse.

Eksempler på Pearson’s r r=0,3 r=0,0 r=0,1 r=0,5 r=0,7 r=0,9

Justeret R2 (justeret for antal forklarende variabel i modellen - bruges næsten altid i stedet for den ujusterede). R2 (forklaringskraften - kan højst blive lig med 1 = 100 %). SPSS Model Summary output fra alder X højde Den første tabel er i de fleste tilfælde uvæsentlig.

(Regression, Error & Total) Signifikansniveau for modellen, beregnet ved F-test (uden for dagens pensum - for bivariat model giver den samme resultat som signifikansniveauet til regressionskoefficienten.) Sums of Squares output

Standardiseret (beta-)koefficient(her en meget stærk positiv sammenhæng) Konstantledet (ved X = 0) Standardfejl for estimatet for alder Signifikansniveau for estimatet for alder, beregnet ud fra t-værdien Når alderen stiger med ét år, stiger højden typisk med ca. 4,9 cm Regressionsligning: Regressionskoefficienter (ligning)

Med indflydelsesrig case Indflydelsesrige cases Oprindeligt eksempel Prøv at følg dette link for at danne jer et indtryk af enkelt-cases betydning: http://www.stat.sc.edu/~west/javahtml/Regression.htm

Nogle formelle forudsætninger • Hvis ikke de formelle forudsætninger (side 26 i Lewis-Beck) er opfyldt, er der risiko for, at regressionskoefficienterne og/eller disses standardfejl fejlestimeres. • De mest væsentlige at kærre sig om ifm. tværsnitsanalyser, der ikke foretages på meget små datasæt, er følgende: • Sammenhængen er lineær (1a) • Der er homoskedasticitet (3b) • Den uafhængige variabel er ikke korreleret med fejlleddet (3d) • En del vil også mene, at forudsætningen om, at fejlleddet skal være normalfordelt, er væsentlig (3e) • Dog mht. forudsætninger: lineær regression er forholdsvis robust overfor overtrædelser af forudsætninger

Eksempel fra den virkelige verden Procentandel ældre i kommunen har en negativ effekt på udgifterne til ældreomsorg pr. ældre borger. Dvs. jo flere ældre, jo ’billigere’ bliver hver af de ældre for kommunen. To mulige forklaringsfaktorer: • Stordriftsfordele • Når krybben er tom, bides hestene

Bed om diagrammer til forudsætnings-check! Klik på ”Plots” Vælg her f.eks. disse. Man kan f.eks. også klikke på ”Next” og vælge DEPENDNT X ZPRED.

I det bivariate tilfælde er andel forklaret varians lig med den standardiserede koefficient opløftet i anden potens. SPSS output – Summary og koefficienter

SPSS output – Residualer langt fra regressionslinjen? Er der enkelte ’outliers’ langt fra regressionslinjen? Med mindre der er tale om meget skævt fordelte residualer, forventes det, at stort set alle ligger på plus/minus tre standardafvigelser fra regressions-linjen. Her er det da også kun to ud af landets kommuner, der falder udenfor, og ingen falder ekstremt langt væk fra linjen.

Histogram over residualer Man kan checke grafisk for normalfordelte fejlled, men dette er mindre væsentligt. Derimod kan man også her checke, om der er cases, der ligger langt fra regressionslinjen. Husk at sådanne outliere ikke nødvendigvis er indflydelsesrige cases, samt at indflydelsesrige cases ikke altid er outliere!

SPSS output – Homoskedasticitet?

SPSS output – Linearitet? Der skal ikke her være alt for tydelige og store afvigelser fra en lineær sammenhæng. Man kunne også benytte det tidligere viste scatterplot over sammenhængen, i stedet for at se på den afhængige mod de forventede værdier på den afhængige. I den multiple regression har dette plot større selvstændig værdi.

Eksempel 1 • Datafilen ”HOUSE1” benyttes. • Der laves først et scatterplot/spredningsdiagram af sammenhængen mellem pris i dollars og husstørrelse i square feet. • Ser der ud til at være lineær sammenhæng? • Kan der være cases, der har uforholdsmæssig stor indflydelse på regressionslinjen? • Så laves der regressionsanalyse på fuld datasæt plus evt. også en regressionsanalyse ekskl. cases, der er under mistanke for at øve uforholdsmæssig stor indflydelse.

Opgave 1 • Datafilen CRIME2 benyttes. • Lav et spredningsdiagram over sammenhængen mellem murder rate (MR) og poverty rate (P). • Ser der ud til at være en eller flere cases under mistanke for at øve uforholdsvis stor indflydelse på regressionslinjen? • Foretag regressionsanalyse af sammenhængen. • Foretag regressionsanalyse på datasæt, hvor I fjerner den case, som er under størst mistanke for at øve uforholdsvis stor indflydelse (Data  Select Cases  If…). • Studér ændringer i regressionsligning og lav et spredningsdiagram på dette datasæt også. Få SPSS til at indtegne regressionslinjen i diagrammet.

Surveydata og spredningsdiagrammer Uddannelsens effekt på selvplacering i samfundet (fra ISSP om ulighed, DK 1999). Til venstre ses et vanskeligt spredningsdiagram, der er vanskeligt at tolke. Til højre et omformet, hvor punkterne er kommet i større eller mindre beholdere (bins), alt efter antal respondenter. Dette kan være lettere at tolke, men er det langt fra altid.

Eksempel 2 • Datafilen ”Hovedstadsomraadet…” benyttes. • Der laves først et spredningsdiagram, der viser hvordan den årlige personlige indtægt (persindt2) varierer i forhold til hvor mange uddannelsesår respondenterne har gennemført (skoleaar). • Derefter foretages en lineær regressionsanalyse af sammenhængen mellem personlig indtægt og uddannelsesår

Opgave 2 • Datafilen ”Hovedstadsområdet …” benyttes. • Lav et spredningsdiagram, der viser hvordan respondneternes rejselængde med bil i løbet af undersøgelsesugens fem hverdage, målt i km (bilhverd) varierer med boligens afstand fra Københavns centrum, målt i km (centafs) Respondenter med ekstreme rejselængder med bil skal udelades fra analysen. /Brug Analyze Descriptive Statistics Explore samt undermenuen Statistics percentiles til at identificere respondenter med rejselængder, der er højere end tre kvartildifferencer over det øvre kvartil (3. kvartil), og benyt Data  Select Cases til at fravælge disse respondenter. • Foretag en lineær regressionsanalyse af sammenhængen mellem boligens afstand fra Københavns centrum og rejselængden med bil. • Hvor meget stiger den gennemsnitlige rejselængde med bil, når boligens afstand fra Københavns centrum øges med 1 km? • Brug SPSS til at indtegne regressionslinjen for sammenhængen i spredningsdiagrammet, og bearbejd diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport. • Hvor godt vil du sige, at den retlinjede regressionslinje passer til det observerede mønster af rejselængder og boliglokaliseringer?

Simpel lineær regression Plan & Miljø, forår 2008 Onsdag den 23. april