1 / 28

Föreläsning 3

Föreläsning 3. 732G05 Regressions- och tidsserieanalys. Multipel linjär regression. Där ε är feltermen ( error term), som står för den del av variationen i y som inte kan förklaras av modellen. Feltermen antas: Ha medelvärde 0 Ha konstant varians σ 2 Vara normalfördelad

levia
Download Presentation

Föreläsning 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Föreläsning 3 732G05 Regressions- och tidsserieanalys

  2. Multipel linjär regression • Därεär feltermen (error term), som står för den del av variationen i y som inte kan förklaras av modellen. Feltermen antas: • Ha medelvärde 0 • Ha konstant varians σ2 • Vara normalfördelad • Vara oberoende av andra ε En påbyggnad på enkel linjär regression Beskriva en beroende variabel y utifrån k stycken förklarande variabler x1, x2, …, xk

  3. Multipel linjär regressionKvadratsummor och varians • Variansen (σ2) skattas med MSE: • Standardavvikelsen (σ) skattas med: Samma beräkningar för SST och SSR Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande SSE beräknas på samma sätt som innan:

  4. Multipel linjär regressionHur utreda om modellen är bra? • Där k är antalet parametrar i modellen • Detta värde jämförs med Fαmed k och n-k-1 frihetsgrader • T-test (testar varje enskild variabel) • Beräknas på samma sätt som i enkel linjär regression • Skillnad är att t-fördelning med n-k-1 frihetsgrader används F-test (Overall F-test, testar hela modellen) • H0: Alla parametrar (β1, β2,…, βk) är lika med noll • Ha: Minst en av parametrarna är skild från noll

  5. Multipel linjär regressionHur utreda om modellen är bra? 2 Förklaringsgrad (R2) • Beräknas och tolkas på samma sätt som i enkel linjär regression Justerad förklaringsgrad ( ) • R2 ökar alltid när en ny förklarande variabel läggs till i modellen • Den justerade förklaringsgraden tar hänsyn till antalet förklarande variabler • Denna ska användas vid jämförelse av modeller med olika antal förklarande variabler

  6. Multipel linjär regressionExempel 1 Ett datamaterial bestående av 150 slumpmässigt valda husförsäljningar i USA NameAntalBeskrivning Modell Price 150 Pris y Area 150 Area i kvadratfotx1 Acres 150 Tomtyta i tunnlandx2 Rooms 150 Antal rum x3 Baths 150 Antal badrum x4 Vi vill undersöka hur priset beror på de förklarande variablerna

  7. Multipel linjär regressionExempel 1 Pris mot bostadsyta

  8. Multipel linjär regressionExempel 1 Pris mot tomtyta

  9. Multipel linjär regressionExempel 1 Pris mot antal rum

  10. Multipel linjär regressionExempel 1 Pris mot antalbadrum

  11. Multipel linjär regressionExempel 1 Minitab: Stat → Regression → Regression

  12. Multipel linjär regressionExempel 1 Regression Analysis: Price versus Area; Rooms The regression equation is Price = 64221 + 49,7 Area - 141 Rooms PredictorCoef SE Coef T P Constant 64221 12766 5,03 0,000 Area 49,673 7,507 6,62 0,000 Rooms -141 2934 -0,05 0,962 S = 30047,0 R-Sq = 48,6% R-Sq(adj) = 47,9% Analysis of Variance Source DFSS MS F P Regression 2 1,25273E+11 62636682991 69,38 0,000 ResidualError 147 1,32715E+11 902824574 Total 149 2,57989E+11

  13. Multipel linjär regressionPunktskattningar • Punktskattning (pointestimate): • Det skattade medelvärdet på y för alla observationer med de givna värdena på x • Punktprediktion (pointprediction): • Värdet en individuell observation väntas ha på y med de givna värdena på x En vanlig tillämpning av multipel linjär regression är att man vill skatta (prediktera) värden för nya observationer Punktskattning (punktprediktion beräknas på samma sätt):

  14. Multipel linjär regressionIntervallskattningar • Prediktionsintervall (hör till punktprediktion) • Ett intervall för värdet på y för en individuell observation med de givna värdena på x • ”Distancevalue” fås från datorutskrift • Minitab: SE Fit = Konfidensintervall (hör till punktskattning) • Ett intervall för medelvärdet på y med de givna värdena på x

  15. Multipel linjär regressionExempel punktskattningar och intervallskattningar Ett intervall för hus med area 3000 kvadratfot och 6 rum Minitab: Stat → Regression → Regression → Options

  16. Multipel linjär regressionExempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 212396 12307 (188076; 236717) (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors.

  17. Multipel linjär regressionExempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 212396 12307 (188076; 236717) (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors. Minitab indikerar att vår prediktion inte är helt pålitlig Vad kan detta bero på?

  18. Multipel linjär regressionExempel punktskattningar och intervallskattningar

  19. Multipel linjär regressionExempel PrisAreaRum • Kombination 3000 kvadratfot och 6 rum finns ej i datamaterialet • Är vår modell giltig för den prediktion vi ville genomföra?

  20. Multipel linjär regressionKvadratiska och kubiska termer y=β0 + β3·x3+ β5·x32 + ε Det kan vara ett annat samband än linjärt mellan den beroende variabeln och en förklarande variabel Då kan man inkludera en kvadratisk eller kubisk term i regressionsmodellen Antal rum kan tyckas ha ett kvadratiskt samband med pris, en modell där pris förklaras av antal rum och antal rum i kvadrat har följande utseende:

  21. Multipel linjär regressionExempel kvadratiska och kubiska termer

  22. Multipel linjär regressionExempel kvadratiska och kubiska termer Regression Analysis: Price versus Rooms; Rooms**2 The regression equation is Price = - 45920 + 39680 Rooms - 1606 Rooms**2 PredictorCoef SE Coef T P Constant -45920 38935 -1,18 0,240 Rooms 39680 10477 3,79 0,000 Rooms**2 -1606,4 698,8 -2,30 0,023 S = 33631,2 R-Sq = 35,6% R-Sq(adj) = 34,7% • Ingen praktisk tolkning av b2 • Kan även användas kubiska termer • Originalvariabeln behålls alltid i modellen!

  23. Multipel linjär regressionSamspelstermer (interaktionstermer) Det behöver inte vara ett kvadratiskt samband mellan den oberoende variabeln och den förklarande variabeln Det kan vara så att den förklarande variabeln samspelar med en annan förklarande variabel Relationen mellan den oberoende variabeln och en förklarande variabel kan vara beroende på värdet på en annan förklarande variabel Då bildar man en samspelsterm (interaktionsterm), vilket beskrivs i kommande exempel

  24. Multipel linjär regressionExempel samspelstermer (interaktionstermer) • Vi bygger vidare på modellen där pris förklaras av area och antal rum • Antal rum i kvadrat och interaktionstermen läggs till i modellen: y = β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3+ ε

  25. Multipel linjär regressionExempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Rooms**2 The regression equation is Price = - 15812 + 49,3 Area + 22544 Rooms - 1529 Rooms**2 PredictorCoef SE Coef T P Constant -15812 34481 -0,46 0,647 Area 49,326 7,379 6,68 0,000 Rooms 22544 9549 2,36 0,020 Rooms**2 -1529,1 613,6 -2,49 0,014 S = 29528,4 R-Sq = 50,7% R-Sq(adj) = 49,6% • Alla variabler signifikanta när vi anpassar med den kvadratiska termen

  26. Multipel linjär regressionExempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Rooms**2; Area*Rooms The regression equation is Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms**2 - 14,0 Area*Rooms PredictorCoef SE Coef T P Constant 862 34085 0,03 0,980 Area 162,78 39,23 4,15 0,000 Rooms -9248 14262 -0,65 0,518 Rooms**2 2161 1390 1,56 0,122 Area*Rooms -14,002 4,759 -2,94 0,004 S = 28783,4 R-Sq = 53,4% R-Sq(adj) = 52,2% • När vi anpassar en modell med både kvadrattermen och interaktionstermen blir bara interaktionstermen signifikant. Den har ”tagit över” kvadrattermens roll.

  27. Multipel linjär regressionExempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Area*Rooms The regression equation is Price = - 28051 + 109 Area + 11862 Rooms - 7,32 Area*Rooms PredictorCoef SE Coef T P Constant -28051 28707 -0,98 0,330 Area 108,55 18,06 6,01 0,000 Rooms 11862 4401 2,70 0,008 Area*Rooms -7,321 2,058 -3,56 0,001 S = 28922,9 R-Sq = 52,7% R-Sq(adj) = 51,7% • Vid anpassning med interaktionstermen blir alla signifikanta och vi får en högre förklaringsgrad.

  28. Multipel linjär regressionSe upp med! • Det kan vara lockande att ha så många variabler som möjligt i modellen för att förklara variansen i datamaterialet bra • Dock kan detta leda till överanpassning, det vill säga att modellen blir ”för bra” anpassad till datamaterialet och att prediktionerna då blir felaktiga • Hitta en balans mellan antalet variabler och förklaringsgrad

More Related