Simpel line r regression
This presentation is the property of its rightful owner.
Sponsored Links
1 / 35

Simpel Lineær Regression PowerPoint PPT Presentation


  • 75 Views
  • Uploaded on
  • Presentation posted in: General

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse – F -test Model-kontrol. Opbygning af statistisk model. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende. Ja. Anvend modellen. +.

Download Presentation

Simpel Lineær Regression

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Simpel line r regression

Simpel Lineær Regression

Opsplitning af variationen

Determinations koefficient

Variansanalyse – F-test

Model-kontrol


Opbygning af statistisk model

Opbygning af statistisk model

Specificer model

Ligninger og antagelser

Estimer parametre

Nej

Modelkontrol

Er modellen passende

Ja

Anvend modellen


Simpel line r regression repetition

+

Stokastisk komponent

Systematisk komponent

Simpel Lineær Regression - repetition

Spørgsmål: ”Afhænger ylineært af x ?”.

Model:


Estimation repetition

Estimation - repetition

  • Vha. Mindste Kvadraters Metode finder vi regressionslinien

    hvor

Residual:


Forklaret og uforklaret afvigelse

Forklaret og uforklaret afvigelse

  • Yi’s afvigelse fra kan opdeles i to.

Y

.

Forklaret afvigelse

Totale afvigelse

Forklaret afvigelse

X


Total og forklaret variation illustration

Y

Y

X

X

Total og forklaret variation - illustration

Den totale variation

ses når vi “kigger langs” x-aksen

Den uforklarede variation ses når vi “kigger langs” regressionslinien


Den totale variation

Den totale variation

  • Den totale variation for data er

  • ”Variationen i data omkring datas middelværdi”

  • SST = Sum of Squares Total


Opslitning af den totale variation

Opslitning af den totale variation

  • Den totale variation kan opslittes:

  • er den uforklarede variation.

  • er den forklarede variation.

  • SSR = Sum of Squares Regression


Total og forklaret variation

Total og forklaret variation

  • Opslitning a variationen


Determinations koeffcienten

Determinations koeffcienten

  • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret.

  • Pr definition: 0 ≤ r2 ≤ 1.

  • Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen.

  • r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.


Eksempler p r 2

Eksempler på r2

Y

Y

Y

X

X

X

SST

SST

SST

S

S

E

r2 = 0

SSE

SSE

SSR

r2 = 0.90

r2 = 0.50

SSR


R 2 og korrelationskoefficienten r

r2 og Korrelationskoefficienten r

  • Den estimerede korrelationskoefficienten

  • Vis at r2 = r2…. :-s

  • Ingredienser:


Variansanalyse tabel

Variansanalyse-tabel

  • Hypoteser:

    • H0: β=0”Lineær regression er ikke besværet værd.”

    • H1: β≠0

  • Under H0 gælder SSE/s2og SSR/s2er uafhængige og

Antal observationer minus totale antal parametre.

Antal parametre involveret i testen.


Variansanalyse fortsat

Variansanalyse - fortsat

  • Af forrige slide følger:

  • Store værdier af F er kritiske for H0.

  • Med signifikansniveau α afviser vi H0, hvis


Spss output

SPSS output

F-teststørresle

Sums of Squares

Frihedsgrader

Mean Sums of Squares


Modelkontrol

Modelkontrol

  • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt!

  • Er der en lineær sammenhæng mellem X og Y ?

  • Er fejlleddene ε1,…, ε1 uafhænige?

  • Følger fejlleddene ε1,…, ε1 alle N(0,s2)?


Residualanalyse

Residualanalyse

Bemærk at residualet

er et estimat for εi.

Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,s2) variable!

Grafisk kontrol: Plot ei’erne mod xi eller .


Residualplot

Residualplot

Residualer

Residualer

٪

0

0

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x.

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

٪

Residualer

Residualer

٪

0

0

Tid

Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.


Tv statistik k kken

TV-Statistik-Køkken

  • Jeg har snydt og lavet mit eget data…

  • Det ligner reklame/salg data, men med flere observationer (n=30).


Residualer i spss

Residualer i SPSS

  • I ’Linear Regression’ vinduet vælges ’Save…’

  • I ’Save’ vinduet vælges ’Unstandardized’ både under

    • ’Reresiduals’ (ei’erne) og

    • ’Predicted Values’ ( ’erne) .


Simpel line r regression

  • Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder

    • residualer (’RES_1’)

    • prædiktioner (’PRE_1’) .

  • Derefter kan man fx lave scatter plots.


Simpel line r regression

  • Scatter plot af

    • residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)

    • residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst).

  • Ser jo ganske usystematisk ud!


Grafiske check for normalfordeling

Grafiske check for Normalfordeling

For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( εi~N(0,σ2) )

  • Lav et histogram over residualerne og se efter om det normalfordelt ud.

  • Lave et normalfordelingsplot (Q-Q plot).

  • Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne


Histogram af residualer

Histogram af residualer

Det ser jo ca normalfordelt ud…


Normalfordelingsplot q q plot

Normalfordelingsplot (Q-Q plot)

  • For hvert residual ei udregner vi

    hvor lier antallet af residualer der er mindre end ei,

    og mi er antallet af residualer med samme værdi som ei.

  • For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1).

  • Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.


Normalfordelingsplot q q plot1

Normalfordelingsplot (Q-Q plot)

  • Nemmere med en tegning…


Simpel line r regression

  • Vælg ’Analyze → Descriptive Statistics → Q-Q plots’

  • Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.


Pr diktion i slr modellen

Prædiktion i SLR-modellen

  • Punktprædiktion:

    • Hvilken værdi vil yforventeligt antage, hvis x antager en bestemt værdi, fx x=10 ?

    • Svar:

  • Dvs. vi prædikterer som bedste bud på punktets værdi.

  • Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data

Ganske simpelt ved at indsætte x i den estimerede regressions linje!


Pr diktionsinterval for observationen

Prædiktionsinterval for observationen

Et (1-α)100% prædiktions interval for Y|X=x er

Hvor s=√MSE.

Et (1-α)100% konfidens interval for E(Y|X=x) er


Pr diktionsb nd

Prædiktionsbånd

Prædiktionsbånd for E[Y|X]

Y

Regressions-

linie

Prædiktionsbånd for Y|X

X

Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.


Slr og line r algebra

SLR og lineær algebra

  • Den simple lineære regressions model siger:

  • Hvor e1,...,ener uafhængige og enfordelte e2~N(0,s2) .

  • Det kan vi skrive som to søjle-vektore!


Slr og line r algebra1

SLR og lineær algebra

  • Sådan!

  • Den sidste vektor kan vi skrive som en sum af vektore…


Slr og line r algebra2

SLR og lineær algebra

  • Modellen kan skrives vha. matrixer og vektore:

  • Hvor

  • Matricen X kaldes Design-matricen.


Slr og line r algebra3

SLR og lineær algebra

  • Regneregel fra lineære algebra:

  • Estimatet for er:


  • Login