410 likes | 564 Views
Kapittel 4 - Regresjonsanslyse. Introduksjon til regresjonsanalyse Spredningsdiagram Enkel lineær regresjon Hvor godt treffer modellen? Regresjon og PC Forutsetninger i modellen Testing for signifikans Multippel regresjon Dummy variable Litt om ikkelineær regresjon. Regresjonsanalyse.
E N D
Kapittel 4 - Regresjonsanslyse • Introduksjon til regresjonsanalyse • Spredningsdiagram • Enkel lineær regresjon • Hvor godt treffer modellen? • Regresjon og PC • Forutsetninger i modellen • Testing for signifikans • Multippel regresjon • Dummy variable • Litt om ikkelineær regresjon
Regresjonsanalyse • Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler • Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering) • I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)
Spredningsdiagram • Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel • Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen
Eksempel fra lærebok • Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område • Hva er avhengig og hva er uavhengig variabel? • For å se om det kan være noen sammenheng, lager vi et spredningsdiagram
Regresjonsanalyse • Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y = 0 + 1X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel) 0 = konstantledd (verdi på Y når X = 0) 1 = helning på regresjonslinjen Error = random error = feilledd
Regresjonsanalyse • Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet • Forskjellen mellom faktisk og predikert verdi på X er feilleddete = Y - Y Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y
Minste kvadraters metode (MKM) • Minste kvadraters metode minimerer summen av kradratfeilene:
Minste kvadraters metode Y = 2 + 1,25 X
Regresjonslinjens forklaringskraft • For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til: • SST – Total variansen (variasjonen) til Y • SSE – Summen av kvadrerte feilledd • SSR – Variansen forklart av regresjonsmodellen • SST = SSR + SSE • Determinasjonskoeffisienten (r2) = SSR/SST • Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene
Løsning med PC • Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM • Verktøy – Dataanalyse – Regresjon
Viktige forutsetninger i modellen • Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder • Feilleddene er uavhengige • Feilleddene er normalfordelt • Feilleddene har gjennomsnittlig verdi 0 • Feilleddene har konstant varians • Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt
X 0 ”Pene” feilledd
0 X Tydelig mønster i feilleddene
0 X Feilleddene øker med økende X
Estimering av varians • Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen • s2 = MSE = SSE/(n – k – 1) • n = antall observasjoner • k = antall uavhengige variabler • I vårt eksempel er MSE = 1,7188 • Standardavviket s = 1,71880,5 = 1,31.
Signifikans – F test • Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0 • Hvis signifikansen til F testen er lav, vil vi forkaste nullhypotesen og si at det er en lineær sammenheng • F = MSR/MSE, hvor MSR = SSR/k • MSR = 15,625/1 = 15,625 • F = 15,625/1,7188 = 9,0909
Signifikans – F test • Vi må se påantallfrihetsgrader • Frihetsgraderi teller df1 = k (her 1) • Frihetsgraderinevner df2 = n – k – 1 (her 6 – 1 – 4) • Vi finnerkritiskverdi for F itabell, her 7.71 med 5 % signifikans • Vi forkasternullhypotesenom at detikkeersammenhengmellom X og Y hvisberegnet F > kritisk F for et gittsignifikansnivå • 9.09 > 7.71, vi forkasternullhypotesenogsier at deter en lineærsammenheng • Signifikansnivået for F = 9,0909 er 0,0394
Signifikans – R2 • R2 er det beste mål på om det er sammenheng mellom X og Y variablene • Jo nærmere R2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen • En god regresjonsmodell har høy R2 og en signifikant F test
Signifikans - koeffisienter • Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans • Nullhypotesen er at β = 0 • En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes • Vi kan også se på P verdiene for å teste nullhypotesen • De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer
Multippel regresjon • I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon • Y = β0+β1X1+β2X2+..+βnXn • Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre
Multippel regresjon - eksempel • Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler) • Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34 • Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste • Ŷ = 60815.45 + 21.91(1900) – 1449.34 (10) = 87 951
Binære eller dummy variabler • Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers • Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data
Binære eller dummy variabler • I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good • Vi innfører følgende variabler • X3 = 1 hvis boligen er excellent og 0 ellers • X4 = 1 hvis boligen er mint og 0 ellers • Hvis både X3 og X4 = 0, er boligen good
Kollienaritet og multikollienaritet • Dette oppstår når en eller flere av de uavhengige variablene er korrelert • Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene
Ikkelineær regresjon • I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær • Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner
Eksempel – vekt og bensinforbruk • Sammenheng mellom bilens bensinforbruk og vekten • Hvor godt forklarer bilens vekt bensinforbruket?
Automobile Example (continued) Perhaps a nonlinear relationship exists? Linear regression line Nonlinear regression line
Vekt og bensinforbruk • Lineær regresjonsmodell:MPG = 47.8 – 8.2 (weight) • F significans = 0.0003 • r2 = 0.7446 • Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) + 3.4 (weight) F significans = 0.0002 • R2 = 0.8478 2