370 likes | 1.25k Views
第四章 進階迴歸分析. 常見涉及誤差變異之問題 若誤差項不符合變異數相同的假說,則可能產生異值變異 (heteroskedasticity )的問題 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrelation) 的問題,即誤差項與前期的誤差相關 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式. 殘差圖. 以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為 殘差圖 。.
E N D
第四章 進階迴歸分析 常見涉及誤差變異之問題 • 若誤差項不符合變異數相同的假說,則可能產生異值變異(heteroskedasticity)的問題 • 若誤差項不符合獨立的假設,則可能產生自我相關(autocorrelation)的問題,即誤差項與前期的誤差相關 • 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定 • 如何修正? 對異值變異採用WLS法,對自我相關資料採用AR(1)模式
殘差圖 以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為殘差圖。 t-化殘差( Student residual):以√ MSE 為標準差,將 ei標準化得到的值,在常態情況下其值應介於 -3 與 3之間 • 殘差圖種類 : • t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。 • 對Y、對 X的殘差圖。
社區相館例之殘差常態機率圖(符合迴歸假設) 社區相館例之殘差圖: 95%在此範圍
殘差圖分析 偏離情況 殘差圖形狀 範例 1. 非直線模式 對X殘差圖呈曲線 fig1 2. 變異數非固定值 對X殘差圖呈梯形 fig2 3. 離群值存在 對X殘差圖, 及殘差盒 形圖出現離群值 fig3 4. 誤差項的不獨立 殘差順序圖分群呈現 (如:時間序列資料) fig4 5. 誤差項非常態性 殘差的常態機率圖 偏離直線 fig5
ei = 0 資料散佈圖 殘差圖 fig1 fig2
資料散佈圖 殘差圖 fig3 fig4
資料散佈圖 殘差圖 fig5 殘差機率圖
第一節 GLS 與 OLS • Yt = β0+ β1X 1t +…….+ βkX kt +εt εt ~ NID( 0, σ2) • 廣義的變異數矩陣: Cov(εi, εj) Var(εi) • 根據上列變異數矩陣得到的最小平方估計量稱為廣義最小平方法 (generalized least square method), 簡稱為 GLS
獨立時變異數矩陣: σij =0, for i ≠ j • 同值時變異數: σii2 =σ2 • 假設誤差項是獨立且同變異數時, • 之前在假設ε是獨立且同變異數之下的最小平方估計量稱為一般最小平方法 (ordirnary least square method), 簡稱為 OLS
第二節 異值變異 • 迴歸分析時,資料違背同變異性,稱為異值變異(Heteroskedasticity) • 觀察對x 之殘差圖呈現喇叭形時,可能有異值變異,即標準差與x 相關 • 也可以由下列三種檢定法檢定資料是否存在異值變異: • White test • Breusch-Pagan/Godfrey test • Goldfeld-Quandt test
White test • 原理說明: • 誤差項可能會跟 X 或 X平方相關 • 所以利用誤差項變異數和以上相關的變數進行迴歸分析,若判定係數(R2)很高時,表示具有異值變異。 • White 證明nR2 服從自由度q 的卡方分配,q=(k-1)(k+2)/2 • 以卡方檢定執行
社區相館例之 White test 報表 : 未違背同值變異 年齡血壓關係例之 White test 報表 : 違背同值變異 SAS tip Analysis → Regression → Linear Statistics → Diagnostics → ˇHeteroscedasticity test
異值變異迴歸式的估計方法 • 加權最小平方法(WLS) • 說明: Yt = β0+ β1X 1t +εt , var(εt)= Ztσ2 Zt是Xt,或是Xt 的函數 • 變異數與Zt成正比,則以1/Zt為權重 註:權重的觀念是:對變化小的個案,加權重,對變化大的個案,加權輕,這將使迴歸式的估計較精確。
原理: 求得βi,使下式達到最小的方法稱為加權最小平方法(WLS) 矩陣解: Normal Equation: (X’WX) bw = X’WY 估計量 : bw = (X’WX)-1 X’WY 共變異矩陣 : σ{bw} = (X’WX)-1 X’WY
實作 : 1. 先以不加權最小平方配適迴歸模式。 2. 由殘差圖判斷誤差變異數隨何變數正變,可能是下列情況 之一。然後決定 wt 值。 喇叭形 梯形 狹形 也可能是分段增加或減少 3. 以 wt加權得到 WLS 迴歸模式。 4. 進一步測試模式適合性及其它。 SAS tip 將 wt資料輸入為 relative weight 變數
(OLS法 報表 ) (WLS法 報表, X-2為加權 )
第三節 自我相關 • 探討誤差項之間的相關性不為零的情形 σij ≠ 0, for i ≠ j • 就是變異數矩陣中,非對角線元素不為零的狀況
使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation),此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。 【例】 X:產品年銷售量(salec),Y:某公司的年銷售量 R2=0.999 (此圖顯示殘差明顯違背獨立性假設)
Lag 為 s 之自相關係數 • 迴歸模式的自我相關(autocorrelation)是指誤差項前後期彼此相關 • 定義: • 自相關共變異數: • s 階自相關係數: 注意:
資料的自相關現象對迴歸分析結果產生下列現象:資料的自相關現象對迴歸分析結果產生下列現象: • 係數的估計量仍為不偏,但無法達到最小變異數。 • MSE低估真實的誤差變異數。 • s.e.{bk}低估係數之標準差。 • t-test,F-test,及confidence interval 無法再直接應用。
一階自相關 • first-order autocorrelation:連續二資料間的相關性, 即εt 與 εt-1間之相關性 • 與位置無關,ρ1 = cor(εt , εt-1 ) for all t • 如何檢測出一階自相關? 1. 觀察殘差圖 2. Durbin-Watson 檢定 (εt與 εt-1間相關,將反應在 et與 et-1間 )
自相關的檢定 -- Durbin-Watson Test Durbin-Watson 統計量: 註:1、 D ≒ 2(1-r1),0≦D≦4 2、SAS之 regression / linear 或 Time series/ Reg. w. Autoregressive error提供 D-W 值 3、檢定法則:依據 n, p, α查出 dL,α及 dU,α
正的自相關檢定 H0 :ρ1= 0, H1:ρ1> 0 決策 • D < dL,α時,拒絕 H0 • D > dU,α時,不拒絕 H0 • dL,α <D < dU,α時,無法定論,(需要更多資料) ρ1>0 ρ1=0 ρ1<0 0 dL dU 2 4-dU 4-dL 4 不確定區 臨界值
負的自相關檢定 H0 :ρ1= 0,H1:ρ1<0 決策 • (4-D) < dL,α時,拒絕 H0 • (4-D) > dU,α時,不拒絕 H0 • dL,α < (4-D) < dU,α時,無法定論,(需要更多資料) 注意: r1 >0 ,0< D < 2, r1 < 0 ,2< D < 4 r1 =ρ1-hat
【例】 X:產品年銷售量(salec) Y:某公司的年銷售量 (salei) 殘差圖 X-Y 分散圖
SAS/EG / regression/ linear 報表 (dL=1.2. dU=1.36) D=3.05 > 4-dL, 有負自相關現象,雖然R2值很高,得到的迴歸訊息是不正確的,需要修正模式。
First-order autocorrelative reg. model 如何修正含自相關現象的迴歸模式? 有多種方法,最常用的是 AR(1) errors model, 即,假設迴歸式中的誤差項是一 AR(1) model. AR(1) Model : Yt = β0 + β1 xt + εt , t= 1,2,…, n εt = ρ εt-1 + ut , |ρ|<1, ut ~NID(0,σ2) ρ為一階自相關係數,代表自相關程度之大小。 SAS tip Analyze → Time series → Reg. w Autoregressive Errors
共變異矩陣: 註 : 1、期望值=0 2、ρ愈大,影響愈遠。 3、若設εt = ρ1εt-1 + ρ2εt-2 + ut , 視為二階自相關模式 AR(2) model
【例】 X:產品年銷售量(saleC) Y:某公司的年銷售量 (salei) 執行 Time series / Reg. w Autoregressive Errors 報表
AR(1)迴歸估計式: yt = 8.974 + 5.643 xt + εt , εt = -0.542εt-1