380 likes | 517 Views
課程十. 迴歸 3. 複迴歸. 超過一個自變數與依變數構成。 E(y| x 1 ,x 2 )= α + β 1 x 1 + β 2 x 2 兩個自變數分別與依變項相關,但是兩個自變數彼此之間可能有相關。 因此我們必須強調自變數的係數是在「控制」其他自變數的(平均值)情況下,對於依變數的影響。稱之為 partial regression coefficients. 兩個變數的迴歸方程式. 完整的兩個自變數的迴歸方程式可寫成 y i = β 0 + β 1 x 1i + β 2 x 2i +u i. β 0 , β 1 , β 2. 迴歸係數的標準誤.
E N D
課程十 迴歸3
複迴歸 • 超過一個自變數與依變數構成。 • E(y| x1,x2)=α+β1x1+ β2x2 • 兩個自變數分別與依變項相關,但是兩個自變數彼此之間可能有相關。 • 因此我們必須強調自變數的係數是在「控制」其他自變數的(平均值)情況下,對於依變數的影響。稱之為partial regression coefficients.
兩個變數的迴歸方程式 • 完整的兩個自變數的迴歸方程式可寫成yi= β0+β1x1i+ β2x2i+ui
複迴歸的特性1 • 通過y, x1, x2等變數的平均值,也就是代入x1, x2的平均值會得到y的平均值。 • y的預測值的平均值等於y的平均值。 • 殘差ui_hat的平均值=0 • ui_hat與x1, x2等自變數互相獨立。 • x1, x2等自變數的相關程度越高, β1-hat及β2_hat的標準誤越大,也就是越容易不顯著。如果等於1,那麼將無法計算β1-hat及β2_hat的標準誤。
複迴歸的特性2 • x1, x2等自變數的變異數越大, β1-hat及β2_hat的標準誤越小,也就是估計的越準確。 • β1-hat及β2_hat是β1及β2最佳估計,其平均值是β1及β2 ,而其抽樣分配為常態分佈。
複迴歸係數的意義1 • 如果我們以y為依變數,自變數為x1, x2進行迴歸,那麼, β1-hat應該是控制或是去掉x2作用之後, x1對y的作用。 • 我們先以x2對y做迴歸,再以x2對x1做迴歸,其殘差的意義分別為y及x1去掉x2之作用的值。
複迴歸係數的意義2 • 承上,如果以y的殘差為依變數, x1的殘差做自變數,得到的係數應該就是原來的β1-hat。 • 以Boston的房價中位數(medv)當依變數, x1為犯罪率(crim), x2為樓板面積(rm),估計結果如下: Estimate Std. Error t value (Intercept) -29.2447 2.5881 -11.30 crim -0.2649 0.0331 -8.01 rm 8.3911 0.4049 20.73
複迴歸係數的意義3 • 以rm對medv 迴歸 Estimate Std. Error t value (Intercept) -34.671 2.650 -13.1 rm 9.102 0.419 21.7 • 以rm對crim迴歸 Estimate Std. Error t value (Intercept) 20.482 3.364 6.09 rm -2.684 0.532 -5.04
複迴歸係數的意義4 最後以y的殘差為依變數, x1的殘差為自變數進行迴歸,係數即為原來的β1-hat。 Estimate Std. Error t value (Intercept) 5.792e-17 2.770e-01 b2$residuals -2.649e-01 3.304e-02 -8.019
R2 變數的全部變異量減去無法解釋的部份,再除以全部變異量,便是可用X解釋的比例。 R2= TSS-SSE/ TSS
估計結果 • yi= β0+β1x1i+ β2x2i+ui x1i=0, 1 Coeff. S. E. t Pr(>|t|) (Intercept) 25.73154 5.87521 4.380 1.49e-05 mom_hs 5.95012 2.21181 2.690 0.00742 mom_iq 0.56391 0.06057 9.309 < 2e-16 Multiple R-squared: 0.2141
解釋類別變數的影響1 • prediction equation: E(y)=25.73+5.95*mom_hs+0.56*mom_iq 當mom_s=0, E(y)=25.73+ β2x2i 當mom_s=1, E(y)=25.73+ β1+ β2x2i 所以, β1可解釋成母親有高中學歷的學生比起沒有高中學歷的學生會有多少平均高或低的表現(高了5.95分)
解釋類別變數的影響2 • 當類別變數=0,預測的迴歸方程式剩下一個自變數,E(y)=25.73+0.56*mom_iq。 • 當類別變數=1E(y)=25.73+5.95+0.56*mom_iq =31.68+0.56*mom_iq。 • 因此,只有截距會因為虛擬變數的值而改變,另一自變數的影響程度不變。
虛擬變數 • 如果自變數是質性變數(類別)時,可以設定為虛擬變數。 • 例如沒受過高中教育從1變成0,受過高中教育從2變成1 • 估計結果並不會改變 • 如果超過兩個類別,需要k-1個虛擬變數。
R2 • y<-kid_score • m.y<-mean(y) • v.y<-sum((y-m.y)^2) • E1<-v.y • E2<-sum((fit.3$residuals^2)) • (E1-E2)/E1
超過兩個類別的自變數 Cyril Burt(1966)曾收集雙胞胎的智商資料,共有三個變數:生長在生父母家庭的雙胞胎的智商、生長在收養家庭的雙胞胎的智商、生父母的社會地位。資料在twins。 y:收養家庭的雙胞胎的智商; x1 :生長在生父母家庭的雙胞胎的智商x2 :生父母的社會地位=中;x3 :生父母的社會地位=低 E(y)=β0+ β1 x1 + β2 x2 + β3 x3
估計結果 Coef. S.E. t (Intercept) -0.6076 11.8551 -0.051 Biological 0.9658 0.1069 9.031 (Social)low 6.2264 3.9171 1.590 (Social)middle 2.0353 4.5908 0.443 Residual standard error: 7.571 on 23 degrees of freedom Multiple R-squared: 0.8039, Adjusted R-squared: 0.7784
截距+迴歸係數多於3的標準誤 • 必須估計當自變數為依變數時的迴歸。
計算Biological的標準誤 • se(Biological)=RSE/√Var(Biological)*(1-R2(1.23)) = 7.57/√6437*(1-0.222)=0.10 • 同樣的方法適用於自變數數目=k的迴歸模型
虛擬變數的作用 • 當x2=0,x3 =0,代表高社會地位家庭的方程式:E(y)= β0+ β1 x1 —(1) • 當x2=1,x3 =0 ,代表中社會地位家庭的方程式: E(y)= β0+ β2 +β1 x1 —(2) • 當x2=0,x3 =1 ,代表低社會地位家庭的方程式: E(y)= β0 + β3 + β1 x1 —(3) • 若以(2)-(1)得到β2,代表中社會地位家庭與高社會地位家庭之差別
F值1 • 可檢驗是否全部的自變數之係數=0 • F=平均迴歸平方和(Regression mean square)/平均殘差平方和(Residual mean square) • F分佈的自由度為迴歸平方和的自由度及殘差平方和的自由度 • 虛無假設:全部迴歸係數=0 • 對立假設:至少一個迴歸係數≠0
F值2 • F值亦可以用以下公式計算: • F=[n-k-1)]*[R2/k]/(1-R2) • R2=0.804 • k=3 • n=27 • F=23*[0.8/3]/0.2
結論 • 瞭解複迴歸的係數求法 • 瞭解R2的求法 • 瞭解預測值 • 瞭解迴歸係數的信賴區間以及t檢定。 • 瞭解自變數為類別變數的解釋。