Simpel line r regression
Download
1 / 35

- PowerPoint PPT Presentation


  • 138 Views
  • Uploaded on

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse – F -test Model-kontrol. Opbygning af statistisk model. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende. Ja. Anvend modellen. +.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - manelin-inara


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Simpel line r regression

Simpel Lineær Regression

Opsplitning af variationen

Determinations koefficient

Variansanalyse – F-test

Model-kontrol


Opbygning af statistisk model
Opbygning af statistisk model

Specificer model

Ligninger og antagelser

Estimer parametre

Nej

Modelkontrol

Er modellen passende

Ja

Anvend modellen


Simpel line r regression repetition

+

Stokastisk komponent

Systematisk komponent

Simpel Lineær Regression - repetition

Spørgsmål: ”Afhænger ylineært af x ?”.

Model:


Estimation repetition
Estimation - repetition

  • Vha. Mindste Kvadraters Metode finder vi regressionslinien

    hvor

Residual:


Forklaret og uforklaret afvigelse
Forklaret og uforklaret afvigelse

  • Yi’s afvigelse fra kan opdeles i to.

Y

.

Forklaret afvigelse

Totale afvigelse

Forklaret afvigelse

X


Total og forklaret variation illustration

Y

Y

X

X

Total og forklaret variation - illustration

Den totale variation

ses når vi “kigger langs” x-aksen

Den uforklarede variation ses når vi “kigger langs” regressionslinien


Den totale variation
Den totale variation

  • Den totale variation for data er

  • ”Variationen i data omkring datas middelværdi”

  • SST = Sum of Squares Total


Opslitning af den totale variation
Opslitning af den totale variation

  • Den totale variation kan opslittes:

  • er den uforklarede variation.

  • er den forklarede variation.

  • SSR = Sum of Squares Regression


Total og forklaret variation
Total og forklaret variation

  • Opslitning a variationen


Determinations koeffcienten
Determinations koeffcienten

  • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret.

  • Pr definition: 0 ≤ r2 ≤ 1.

  • Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen.

  • r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.


Eksempler p r 2
Eksempler på r2

Y

Y

Y

X

X

X

SST

SST

SST

S

S

E

r2 = 0

SSE

SSE

SSR

r2 = 0.90

r2 = 0.50

SSR


R 2 og korrelationskoefficienten r
r2 og Korrelationskoefficienten r

  • Den estimerede korrelationskoefficienten

  • Vis at r2 = r2…. :-s

  • Ingredienser:


Variansanalyse tabel
Variansanalyse-tabel

  • Hypoteser:

    • H0: β=0 ”Lineær regression er ikke besværet værd.”

    • H1: β≠0

  • Under H0 gælder SSE/s2og SSR/s2er uafhængige og

Antal observationer minus totale antal parametre.

Antal parametre involveret i testen.


Variansanalyse fortsat
Variansanalyse - fortsat

  • Af forrige slide følger:

  • Store værdier af F er kritiske for H0.

  • Med signifikansniveau α afviser vi H0, hvis


Spss output
SPSS output

F-teststørresle

Sums of Squares

Frihedsgrader

Mean Sums of Squares


Modelkontrol
Modelkontrol

  • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt!

  • Er der en lineær sammenhæng mellem X og Y ?

  • Er fejlleddene ε1,…, ε1 uafhænige?

  • Følger fejlleddene ε1,…, ε1 alle N(0,s2)?


Residualanalyse
Residualanalyse

Bemærk at residualet

er et estimat for εi.

Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,s2) variable!

Grafisk kontrol: Plot ei’erne mod xi eller .


Residualplot
Residualplot

Residualer

Residualer

٪

0

0

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x.

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

٪

Residualer

Residualer

٪

0

0

Tid

Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.


Tv statistik k kken
TV-Statistik-Køkken

  • Jeg har snydt og lavet mit eget data…

  • Det ligner reklame/salg data, men med flere observationer (n=30).


Residualer i spss
Residualer i SPSS

  • I ’Linear Regression’ vinduet vælges ’Save…’

  • I ’Save’ vinduet vælges ’Unstandardized’ både under

    • ’Reresiduals’ (ei’erne) og

    • ’Predicted Values’ ( ’erne) .


Simpel line r regression


Simpel line r regression

  • Scatter plot af Editor’, der indeholder

    • residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)

    • residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst).

  • Ser jo ganske usystematisk ud!


Grafiske check for normalfordeling
Grafiske check for Normalfordeling Editor’, der indeholder

For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( εi~N(0,σ2) )

  • Lav et histogram over residualerne og se efter om det normalfordelt ud.

  • Lave et normalfordelingsplot (Q-Q plot).

  • Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne


Histogram af residualer
Histogram af residualer Editor’, der indeholder

Det ser jo ca normalfordelt ud…


Normalfordelingsplot q q plot
Normalfordelingsplot (Q-Q plot) Editor’, der indeholder

  • For hvert residual ei udregner vi

    hvor lier antallet af residualer der er mindre end ei,

    og mi er antallet af residualer med samme værdi som ei.

  • For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1).

  • Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.


Normalfordelingsplot q q plot1
Normalfordelingsplot (Q-Q plot) Editor’, der indeholder

  • Nemmere med en tegning…


Simpel line r regression

  • Vælg ’Analyze Editor’, der indeholder→ Descriptive Statistics → Q-Q plots’

  • Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.


Pr diktion i slr modellen
Prædiktion i SLR-modellen Editor’, der indeholder

  • Punktprædiktion:

    • Hvilken værdi vil yforventeligt antage, hvis x antager en bestemt værdi, fx x=10 ?

    • Svar:

  • Dvs. vi prædikterer som bedste bud på punktets værdi.

  • Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data

Ganske simpelt ved at indsætte x i den estimerede regressions linje!


Pr diktionsinterval for observationen
Prædiktionsinterval for observationen Editor’, der indeholder

Et (1-α)100% prædiktions interval for Y|X=x er

Hvor s=√MSE.

Et (1-α)100% konfidens interval for E(Y|X=x) er


Pr diktionsb nd
Prædiktionsbånd Editor’, der indeholder

Prædiktionsbånd for E[Y|X]

Y

Regressions-

linie

Prædiktionsbånd for Y|X

X

Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.


Slr og line r algebra
SLR og lineær algebra Editor’, der indeholder

  • Den simple lineære regressions model siger:

  • Hvor e1,...,ener uafhængige og enfordelte e2~N(0,s2) .

  • Det kan vi skrive som to søjle-vektore!


Slr og line r algebra1
SLR og lineær algebra Editor’, der indeholder

  • Sådan!

  • Den sidste vektor kan vi skrive som en sum af vektore…


Slr og line r algebra2
SLR og lineær algebra Editor’, der indeholder

  • Modellen kan skrives vha. matrixer og vektore:

  • Hvor

  • Matricen X kaldes Design-matricen.


Slr og line r algebra3
SLR og lineær algebra Editor’, der indeholder

  • Regneregel fra lineære algebra:

  • Estimatet for er: