statistik ii lektion 5 modelkontrol n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Statistik II Lektion 5 Modelkontrol PowerPoint Presentation
Download Presentation
Statistik II Lektion 5 Modelkontrol

Loading in 2 Seconds...

play fullscreen
1 / 47

Statistik II Lektion 5 Modelkontrol - PowerPoint PPT Presentation


  • 127 Views
  • Uploaded on

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel. Opbygning af statistisk model. Eksplorativ data-analyse. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende?. Ja.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Statistik II Lektion 5 Modelkontrol' - azra


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
statistik ii lektion 5 modelkontrol

Statistik II Lektion 5Modelkontrol

Modelkontrol

Modelsøgning

Større eksempel

opbygning af statistisk model
Opbygning af statistisk model

Eksplorativ data-analyse

Specificer model

Ligninger og antagelser

Estimer parametre

Nej

Modelkontrol

Er modellen passende?

Ja

Herunder test, modelsøgning, prædiktioner og fortolkninger.

Anvend modellen

generel line r model
Generel Lineær Model
  • Y afhængig skala variabel
  • x1,…,xk forklarende variable, skala eller binære
  • Model:

hvor fejlleddet eer normalfordelt med middelværdi 0 og varians s2, e ~N(0, s2).

  • Middelværdien for Y givet x = (x1,…,xk) er
  • Dvs. regressions-”linjen” angiver middelværdien.
generel line r model1
Generel Lineær Model
  • Mere præcist: i’te observation yiud af n er givet ved
  • xj,ier j’te forklarende variabel for den i’te observation.
  • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

Systematisk del

Tilfældig del

Idependent and Identically Distributed - IID

estimater og pr diktion
Estimater og prædiktion
  • Lad a være et estimat af a
  • Lad b1 være et estimat af b1, osv…
  • Definer den prædikterede værdi som
  • Dvs. er et estimat af middelværdien
residual
Residual
  • I den sande model har vi
  • Det kan vi skrive om til
  • Residualet, ei, er derfor et estimat af fejlleddet:
  • Daei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).
estimation
Estimation
  • Vores estimater,a, b1, b2,…, bk, er fundet ved at minimere summen af de kvadrerede residualer:
  • Metoden kaldes mindste kvadraters metode
  • SSE står for Sum of SquaredErrors
  • SSE angiver også størrelsen af den uforklarede variation i data.
modelkontrol
Modelkontrol
  • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt!
  • Antagelse:Middelværdi-strukturen i modellen er
    • Kan være svært at checke direkte, hvis vi har mange forklarende variable.
    • Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.
    • Grafisk check: plot af afei mod .
modelkontrol1
Modelkontrol
  • Antagelse: Fejlleddenee1,…, enuafhænige?
    • Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.
  • Grafisk check: Et plot at ei mod eller x.
  • Antagelse: Fejlleddenee1,…, en ~N(0,s2)?
    • Hvis sandt regner vi med atei’erneer cirka normalfordelte.
    • Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiskefejlled).
    • Et histogram eller QQ-plot kan afsløre omei’erne er normalfordelte
residualplot
Residualplot

Residualer

Residualer

٪

0

0

Homoskedastisk: Residualerne ser udtil at variereufahængigtafhinandenogx (eller ).

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

٪

Residualer

Residualer

٪

0

0

Tid

Residualerneudviserlineær trend med tiden (eller en andenvariabel vi ikkeharbrugt). Detteindikerer at tidskulleinkluderesimodellen.

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

eksempel salg og reklame
Eksempel: Salg og Reklame
  • Data: n = 30par af observationer (xi,yi)
    • yi= Ugentlige salg
    • xi= Ugentlige reklame-budget
  • Model:
  • Hvor ei ~N(0,s2)
residualer i spss
Residualer i SPSS
  • I ’Linear Regression’ vinduet vælges ’Save…’
  • I ’Save’ vinduet vælges ’Unstandardized’ både under
    • ’Reresiduals’ (ei’erne) og
    • ’Predicted Values’ ( ’erne) .
slide13
Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder
    • residualer (’RES_1’)
    • prædiktioner (’PRE_1’) .
  • Derefter kan man fx lave scatter plots.
slide14
Scatter plot af
    • residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)
    • residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst).
  • Ser jo ganske usystematisk ud!
histogram af residualer
Histogram af residualer

Histogrammet burde ligne en normalfordeling.

Det gør det også sådan cirka – så ingen problemer her

normalfordelingsplot q q plot
Normalfordelingsplot (Q-Q plot)
  • Konstruer et ”kunstige” data u1,u2,…,unsom følger en normalfordeling.
  • I et Q-Q plot plotter man ui. mod ei.
  • Bemærk at både ui’erneog ei’erneer sorterede.
  • Hvis residualerne er normalfordelte, vil vi have ei≈ ui.
  • Dvs (ei,ui) ligge usystematisk omkring en linje med hældning 1 og skæring 0.
normalfordelingsplot q q plot1
Normalfordelingsplot (Q-Q plot)
  • Det kunstige data (ui’erne) opnås ved at inddele normalfordelingen i n+1 lige store stykker.

Areal = 1/(n+1)

u5

slide18
Vælg ’Analyze → Descriptive Statistics → Q-Q plots’
  • Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.
  • Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt
determinations koefficienten r 2
Determinations-koefficienten R2
  • Definition
    • Fordel: Nem at fortolke: Andel af den totale variation der er forklaret af modellen.
    • Ulempe: R2vokser når vi tilføjer flere forklarende variable. Dvs. ved at tilføje flere og flere forklarende variable kan vi få et vilkårligt stort R2.
    • Mål: Vi jagter den simplest mulige model, der forklarer data tilfredsstillende.
justeret r 2
Justeret R2
  • Definition:
    • Trade-off mellem forklaringsgrad, R2, og antallet af parametre, k.
    • Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre.
    • Ulempe: Ikke samme simple fortolkning som R2.
hypotese test
Hypotese-test
  • Generelt vil vi teste om en eller flere bi’er kan sættes lig nul. Det svarer til at fjerne de tilsvarende led fra modellen.
  • Formelle hypoteser
    • H0: b1 = … = bq= 0
    • H1: bi≠ 0 for mindst et af de qparametre
  • Testes vha. af et F-test.
  • Teststørrelsen F ≥ 0 og følger en F-fordeling
  • Jo større F er jo mere kritisk for H0.
  • Vi konkluderer som sædvanligt på baggrund af p-værdi.

qb ’er efter eget valg

f test detaljer for de nysgerrige
F-test detaljer for de nysgerrige
  • Teststørrelsen er
  • SSE er summen af de kvadrerede fejl i en model, hvor når b1,…, bqer med (den oprindelige model)
  • SSE* er summen af de kvadrede fejl når b1,…, bqikke er med.
  • Der gælder SSE* ≥ SSE.
  • Intuition: Jo større forskel (SSE*-SSE) jo mere betyder b1,…, bqfor modellen og jo mindre tror vi på F.
f fordelingen
F-fordelingen

F-fordeling

0

.

7

0

.

6

0

.

5

0

.

4

)

F

(

f

0

.

3

Areal = p-værdi

0

.

2

0

.

1

0

.

0

F

0

1

2

3

4

5

F

modelform
Modelform
  • Sidst så vi på en model for forbruget af gas (Gas) forklaret ved temperatur (Temp) og om huset var isoleret (Insulate)
  • Her er xFør dummy variabel
  • At skrive formlen op kan hurtigt blive uoverskueligt.
  • Modellens modelform kan skrives som

Gas = Temp + Insulate + Temp*Insulate

  • I forbindelse med analyse eller fortolkning af modellen er det stadig nyttigt at skrive den matematiske formel op.
models gning
Modelsøgning
  • Formål: Find den simplest mulig model, der beskriver data tilfredsstillende.
  • Kandidater: Vi vil kun bruge modeller der overholder det hierarkiske princip: Hvis en model indeholder en interaktion, så skal hovedeffekterne også være med.
  • Fx. Hvis modellen indeholder interaktionen A*B, så skal den også indeholde A og B. Hvis modellen indeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv…
  • Naiv søgning: Gennemgå alle modeller og vælg den der er bedst efter et eller andet kriterie, fx R2.
  • Backwards søgning: Start med en kompliceret model og fjern derefter en efter en led, der ikke er signifikante.
backwards s gning
Backwards søgning
  • Backwards-søgning:
    • Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke.
    • Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så
      • Det hierarkiske princip er overholdt
      • p-værdien > a (typisk a = 0.05)
    • Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model.
    • Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel.
  • Forbehold: Før hver ”test-runde” skal man afklare om modellens antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.
stort eksempel boligpriser
Stort Eksempel: Boligpriser
  • price: Boligens pris i $
  • sqft: Boligens størrelse i kvadrat-fod
  • bedrooms: Antal soveværelser
  • baths: Antal badeværelser
  • garage: Antal biler, der er plads til i garagen.
krydstabel
Krydstabel
  • garage vs bedrooms
  • Bemærk: Mange ’expected counts’<5, så vi kan ikke bruge en c2-test.
  • Løsning: Slå kategorier sammen
omkodning af garage
Omkodning af Garage
  • Omkodning: garage = 0 til 1 → garage2 = 0

garage≥ 2 → garage2 = 1

  • SPSS: Transform→Recode into Different Variables…
omkodning af bedrooms
Omkodning af Bedrooms
  • Omkodning:
    • bedroom = 1 til 2 → bedroom2 = 2
    • bedroom = 3 → bedroom2 = 3
    • bedroom = 4 til 5 → bedroom2 = 4
krydstabel1
Krydstabel
  • garage2vsbedrooms2
  • Hypotese:
    • H0: Uafhængighed
    • H1: Afhængighed
  • Teststørrelse:
    • c2
  • P-værdi < 0.0005
  • Konklusion:

Vi afviser H0, dvs.

der er afhængighed.

logistisk regression
Logistisk Regression
  • Afhængig variabel garage2
  • Forklarende variabel price
  • Output:
  • Konklusion: Pris har en betydning, hvis modellen er god… men det er modellen ikke…
variansanalyse
Variansanalyse
  • Afhængig: Boligpris
  • Forklarende: Garage2 og Bedroom2
  • Model(formel):
  • Dummy variable:
    • xg0 = 1  garage2 = 0
  • xb2 = 1  garage2 = 2
  • xb3 = 1  garage2 = 3
modelform1
Modelform
  • Slipper for detaljerne: Brug modelform
  • Modelform:
  • Denne model kaldes mættet, da alle tænkelig vekselvirkninger er medtaget.
  • Er man ekstra doven, så skriver man kun
  • De resterende led følger af det hierarkiske princip.

Garage2 + Bedroom2 + Garage2*Bedroom2

Garage2*Bedroom2

spss test af model led
SPSS: Test af model-led
  • Vi afviser hypotesen om at vekselvirkningsleddet kan udelades.
  • Konklusion: Prisen på bolig kan ikke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvirkningsled mellem antal soveværelser og størrelsen på garagen er nødvendig.
  • Næste skridt burde være modelkontrol.
generel line re model startmodel
Generel Lineære Model - Startmodel
  • Afhængig: Boligpris
  • Forklarende: sqft, baths og bedroom2
  • Modelform:

sqft + baths + bedroom2 +

sqft*bedroom2 + baths*bedroom2 + sqft*baths

model formel
Model-formel
  • Den tilsvarende model-formel er
  • xb2 og xb3 er dummyvariable kodet som før.
modelkontrol2
Modelkontrol
  • Scatterplot af
    • ei mod ^yi
  • Godt: Usystematisk
  • Skidt: Variansen er

ikke konstant.

  • Løsninger?
    • Indfør price2 = log(price)
    • Indfør price2 = √price
normalfordelte residualer
Normalfordelte Residualer
  • Fordelingen er lidt for spids til at være normalfordelt.
  • Men lad det nu ligge…
test i spss
Test i SPSS
  • Ingen af interaktionsleddene er signifikante!
  • Fjerner mindst signifikante led (baths*sqft)
reduceret model
Reduceret Model
  • Begge tilbageværende vekselvirkningsled er mindre signifikante end før – lidt atypisk.
  • Vi fjerner bedrooms2*baths
slutmodel
Slutmodel
  • Nu er bedrooms2*sqrt stærkt signifikant!
  • Modelsøgningen er slut – pånær modelkontrol.
estimater
Estimater
  • Antal badeværelser har betydning for prisen
  • Ligeledes har antal soveværelser og boligareal
  • Prisen for en ekstra sqft afhænger af antal værelser.
mini projekt
Mini-Projekt
  • Omfang: Ca. 30 sider (ikke noget krav – sådan ender det som regel)
  • Indhold:
    • Beskrivelse af data
    • Opstilling af (kvalitative) hypoteser
    • Anvend modeller og metoder fra kurset
  • Aflevering: Senest mandag. d. 26/11 kl. 12. pr. e-mail til kkb@math.aau.dk og en hard-copy til Dorte.
  • Eksamen: Torsdag 5. November.