statistik lektion 4 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Statistik Lektion 4 PowerPoint Presentation
Download Presentation
Statistik Lektion 4

Loading in 2 Seconds...

play fullscreen
1 / 34

Statistik Lektion 4 - PowerPoint PPT Presentation


  • 163 Views
  • Uploaded on

Statistik Lektion 4. Variansanalyse Modelkontrol. Eksempel. Spørgsmål : Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? . Y : Forbrug af gas ( gas ) X : Udetemperatur ( temp ) Scatterplot → SPSS: Estimerede model:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Statistik Lektion 4' - kathleen-weaver


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
statistik lektion 4

StatistikLektion 4

Variansanalyse

Modelkontrol

eksempel
Eksempel
  • Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?
  • Y: Forbrug af gas (gas)
  • X : Udetemperatur (temp)
  • Scatterplot→
  • SPSS:
  • Estimerede model:
  • Både skæring (a) og hældning (b1) er signifikante!
  • Fortolkning?

R2 = 0.467

eksempel nu med isolering
Eksempel – nu med isolering!
  • Y : Forbrug af gas, skala (gas)
  • XTemp : Udetemperatur, skala (temp)
  • XIsolering: {Før, Efter}, kategorisk (insulate)
  • OmkodXIsoleringtil binær dummy variabel XFør
    • XFør = 1 hvis XIsolering = Før
    • XFør = 0 hvis XIsolering = Efter
  • Model:
fortolkning af model
Fortolkning af model
  • Når XIsolering = Før
  • Når XIsolering = Efter
  • To linjer med forskellig skæringspunkter!
  • Før angiver forskellen i skæringspunkt.
to regressionslinjer med forskellige sk ringer men samme h ldning
To regressionslinjer med forskellige skæringer, men samme hældning

Y

Linje for XFør=1

a+ bFør

Linje for XFør=0

a

X1

eksempel og spss
Eksempel og SPSS
  • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’
  • Som ventet er F-testet stadig signifikant.
  • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før.
  • Bemærk at R2 er meget større!
eksempel og spss1
Eksempel og SPSS
  • Estimater
  • Estimeret model:
  • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
vekselvirkning interaktion
Vekselvirkning / Interaktion
  • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.
  • Y, XTemp og XFør er som før.
  • Introducer: XTemp,Før= XTemp∙XFør
  • Model
fortolkning
Fortolkning
  • Når XIsolering= Før:
  • Når XIsolering = Efter:
  • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.
slide10
SPSS
  • Hoved-effekt: ”Ensom” variabel
  • Interaktionsled: Produkt af to eller flere variable
  • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled.
  • Indsæt altid hoved-effekter først!
slide11
Scatterplot →
  • Estimater
  • Estimeret model:
variansanalyse anova
Variansanalyse (ANOVA )

Analysis of Variance

  • Setup: Kun kategoriske forklarende variable
  • Eksempel:
    • Y: Månedlige forbrug (Amountspent - amtspend)
    • X1: Shoppestil (Shopping style - style)
      • Hver anden uge: Biweekly (B)
      • Hver uge: Weekly (W)
      • Ofte: Often (O)
  • Spørgsmål: Påvirker ’style’ forbruget?
omkodning vha dummies
Omkodning vha. Dummies
  • For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable:
  • To binære dummy variable: XB og XW
  • Bemærk: k kategorier omkodes til k-1 dummy variable
  • Model:
hypotesen
Hypotesen
  • Model:
  • E[Y | Style = B] = a + bB
  • E[Y | Style = W] = a + bW
  • E[Y | Style = O] = a
  • Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori.
  • Hypotese: Middelværdien er den samme for alle styles:
    • H0: bB = bW = 0
    • H1: bB 0 og/eller bW 0
  • Afgøres vha. et F-test.
slide16
SPSS
  • Fortolkning?

a

bB

bW

to sidet variansanalyse
To-sidet Variansanalyse
  • Ide: Tage højde for køn
    • X2: Køn (Mand/Kvinde) (Gender - gender)
    • Omkodes til dummy variabel: XM = 1 hvis X2 = Mand
    • Model:
    • Tester to nul-hypoteser:
      • H0: bB = bW = 0 (Ingen effekt af style)
      • H0: bM = 0 (Ingen effekt af gender)
interaktion
Interaktion?
  • Er der en vekselvirkning mellem gender og style?
model med interaktion
Model med Interaktion
  • Model:
  • Hypotese: Ingen interaktion
    • H0: bBM = bWM = 0
  • Hypotese: Ingen hovedeffekt af style
    • H0: bB = bW = 0
  • Hypotese: Ingen hovedeffekt af gender
    • H0: bM = 0
  • Det hierarkiske princip:
    • Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.
slide21
SPSS
  • Bemærk: Hoved-effekter før interaktioner!
slide22
SPSS
  • Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening.
  • Konklusion?
estimerede model
Estimerede model
  • Estimerede model er:
    • = 405,727 + 2,048 XM

-61,751XB-44,006 XW+

67,042XBM+ 77,196XWM

modelform
Modelform
  • Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som
  • Her er xB, xW og xM dummy variable.
  • At skrive formlen op kan hurtigt blive uoverskueligt.
  • Modellens modelform kan skrives som

Forbrug = Stil + Køn + Stil*Køn

  • I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.
modelkontrol motivation
Modelkontrol - Motivation
  • Vores konklusioner om variables vigtighed baseres på p-værdi.
    • p-værdien er en ”halesandsynlighed” i en fordeling, fx F-fordelingen.
      • F-fordelingen baserer sig på antagelser om at fejlleddet e er normalfordelt og har konstant varians (homoskedastisk).
  • Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiskefejlled passer!
residual
Residual
  • I den sande model har vi
  • Det kan vi skrive om til
  • Residualet, ei, er derfor et estimat af fejlleddet:
  • Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).
modelkontrol
Modelkontrol
  • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt!
  • Antagelse:Middelværdi-strukturen i modellen er
    • Kan være svært at checke direkte, hvis vi har mange forklarende variable.
    • Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.
    • Grafisk check: plot af afei mod .
modelkontrol1
Modelkontrol
  • Antagelse: Fejlleddenee1,…, enuafhænige?
    • Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.
  • Grafisk check: Et plot at ei mod eller x.
  • Antagelse: Fejlleddenee1,…, en ~N(0,s2)?
    • Hvis sandt regner vi med at ei’erne er cirka normalfordelte.
    • Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiskefejlled).
    • Et histogram eller QQ-plot kan afsløre om ei’erne er normalfordelte
residualplot
Residualplot

Residualer

Residualer

٪

0

0

Homoskedastisk: Residualerne ser udtil at variereufahængigtafhinandenogx (eller ).

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

٪

Residualer

Residualer

٪

0

0

Tid

Residualerneudviserlineær trend med tiden (eller en andenvariabel vi ikkeharbrugt). Detteindikerer at tidskulleinkluderesimodellen.

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

eksempel kriminalitet og urbanisering
Eksempel: Kriminalitet og Urbanisering
  • Data for n = 67 distrikter i Florida.
    • yi= Crime rate
    • xi= Urbanisering
  • Model:
  • Hvor ei ~N(0,s2)
residualer i spss
Residualer i SPSS
  • I ’Univariate’ vinduet vælges ’Save…’
  • I ’Save’ vinduet vælges ’Unstandardized’ både under
    • ’Reresiduals’ (ei’erne) og
    • ’PredictedValues’ ( ’erne) .
slide32
Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder
    • residualer (’RES_1’)
    • prædiktioner (’PRE_1’) .
  • Derefter kan man fx lave scatter plots.
slide33
Scatter plot af
    • residualer (ei’erne) mod ’urbanisering’ (xi’erne).
    • residualer (ei’erne) mod prædiktionerne ( ’erne) .
  • Ser jo ganske usystematisk ud med jævn variation!
histogram af residualer
Histogram af residualer

Histogrammet burde ligne en normalfordeling.

Det gør det ikke helt… men det er ikke katestrofalt.