第三章迴歸分析

第三章迴歸分析 • 如何估計一合理的股價？ • 影響股價的因素：紅利 (dividend)、報酬率、營業額、公司利潤、其它(不確定因素) • 每一因素的影響程度可能不一樣 • 以一數學式描述股價 =β1 (紅利) +β2 (報酬率) +β3 (營業額) +β4 (利潤) +不確定因素 • 此即為一線性迴歸模式

第一節線性迴歸模型 εt ~ NID( 0, σ2) 其中 Yt 為依變數 (dependent var.) Xtj為解釋變數 (explanatory var.),或自變數(dependent var.) βt為參數 (parameter) β0 為截距(intercept)，捕捉模式的解釋變數無法解釋平均效果 εtj為隨機誤差項 (error)，個案的變異量註解 : 1、線性迴歸模型意指其對參數為線性的方程式 2、此 k 個解釋變數 , 可為量性或質性變數， E(Y) = β0+ β1X 1 +…….+ βkX k

0+1X1+2X2+…+ kXk之意義 E(Yt|X1t ,…,Xkt)=0+1X1t+2X2t+…+ kXkt 在控制變數或條件下期望的觀察值實際觀察到的值Yt為此條件期望值加上隨機誤差項(random error term) Yt=E(Yt|X1t ,…,Xkt)+t

模型假設 • 應變數(Yt)可表達為若干個已知自變數(Xt )的線性函數與一誤差項(t)之和。 • 誤差項(t)的期望值為零。E(t)=0 • 誤差項(t)彼此不相關，且每一誤差項的變異數相同（獨立，同值 homoskedasticity）。 • 自變數為固定變數，且為非隨機(nonstochastic)。 • 自變數間不存在線性相關，且觀察值的個數要大於待估計的參數數目。

有關假設之常見問題 • 解釋變數選擇錯誤。 • 真實的模式非線性線性關係是指被解釋變數為參數的線性函數，而非解釋變數的線性函數，如Yt=a+bXt2 + t 可定義Zt=Xt2，但Yt=a+{(Xt-b)/c}則無法透過變數轉換轉成線性模型。 • 估計參數不穩定：會隨時間的改變而有不同。

其他常見問題 • 假設3中，若誤差項不符合獨立同質的假說，則可能產生的問題： • 1.異質變異(heteroskedasticity） • 2.自我相關(autocorrelation)，即誤差項與前期的誤差相關 • 假設5中，若自變數間有高度相關的話，則可能產生共線性（multicollineariity) • 針對上列問題，使用特殊迴歸方法來解決。(將在第四章介紹)

第二節參數估計：OLS估計法 • 以簡單線性迴歸模型為例： Yt = 0+1X1t +t • 找一組(0，1)的組合，將樣本誤差項(et=Yt－0－1X1t )的平方和極小化，即 min (Yt－0－1X1t )2

OLS估計量

以矩陣表示

複迴歸模式的矩陣表示 • 矩陣 X 與β可表示為

複迴歸模式的OLS估計值 • 複迴歸模式參數β與變異數σ2的OLS估計值的矩陣表達如下： • 其中，為模式之殘差 • 殘差：觀察到未能被預測模式所解釋的部分。

估計量的期望值與變異數 • 參數的OLS估計量的期望值與變異數為 • 亦即此OLS估計量是不偏的 • 根據高斯—馬可夫定理，可證明的OLS估計量是最佳線性不偏估計量(BLUE)，也就是在所有的線性估計量中，OLS估計量的變異數是最小的。

估計量的標準誤 • 上式中代k=1，簡單線性迴歸模式中，0、1估計量的變異數如下： • 觀察上式得到：若解釋變數的變異或波動越大，則0、1估計量的變異數越？，而精確度也就越？。 • 標準誤：變異數開根號，是估計精度的測值。

迴歸式的意義 迴歸係數的意義例：兩個自變數的模式， Y =β0+β1X1+β2 X2+ ε b1表示 X2 固定時，估計平均反應(Y)隨 X1之每一單位增加而改變的量 (估計 X1的改變對 Y 的影響) b2表示 X1固定時，估計平均反應(Y)隨 X2之每一單位增加而改變的量

範例 : 研究一個社區相館的營業額 (Y，千元) 是否可用該社區 16歲以下人口數 (X1，千人) 和平均每人可支配所得 (X2，千元) 來預測？n=21 St. Err. B of B t(18) p-level Interpret -68.8571 60.01695 -1.14729 .266282 X1 1.4546 .21178 6.86820 .000002 X2 9.3655 4.06396 2.30453 .033321 迴歸式： Y = - 68.9 + 1.45 X1+9.37 X2 解釋：平均每人可支配所得固定時，估計社區 16歲以下人口數增加 1 千元，相館的營業額增加1.45千元，估計標準誤 = .212。社區 16歲以下人口數固定時，估計平均每人可支配所得增加 1 千元，相館的營業額增加9.37千元，估計標準誤 = 4.06。

估計量的分配 • 若ε~Normal，可證明以矩陣表示的迴歸模式中，估計量的分配為 • 因此，可得到

各係數的檢定 • Ｈ0: i= i0 H1: i i0 在常態分配的假設下，參數的估計量遵循一常態分配，故可以 t-test來檢定參數的顯著性。 • Ｈ0: i=0H1: i 0 檢定第 i 個解釋變數的效力若看SAS報表結果，當p-值小於0.05，則拒絕H0，表示第 i 個解釋變數對Y的影響力顯著

雙尾檢定與單尾檢定 • 雙尾檢定：H1: i 0用報表中的p-value • 單尾檢定：H1: i > 0 （或H1:i < 0）將報表中的p-value / 2，為確實的 p-值 • 係數的檢定目的是想知道 Xi對 Y的影響是否顯著，但此檢定是在其它解釋變數都已在模式內的情況下做的檢定，屬於額外的影響，非 Xi對 Y 的單純影響。

範例 : 研究一個社區相館的營業額 (Y，千元) 是否可用該社區 16歲以下人口數 (X1，千人) 和平均每人可支配所得 (X2，千元) 來預測？n=21 St. Err. B of B t(18) p-level Interpret -68.8571 60.01695 -1.14729 .266282 X1 1.4546 .21178 6.86820 .000002 X2 9.3655 4.06396 2.30453 .033321 係數檢定結果：已將平均每人可支配所得考慮後，社區 16歲以下人口數對相館的營業額的影響是顯著的 (t test p-值 = 0.000002) 已將社區 16歲以下人口數考慮後，平均每人可支配所得對相館的營業額的影響是顯著的 (t test p-值 = 0.0333)

第三節預測 • 考慮簡單線性迴歸模式 • 給一解釋變數的值，x0，其最佳估計值（或預測值）為 • 預測誤差為預測誤差為 • 期望值與變異數為

影響預測精確度的因素： 觀察上式得到影響預測值精確度的因素為： • 樣本的大小(N) • 解釋變數的波動程度( ) • X0偏離解釋變數樣本平均值( )的程度

模式的配適程度 • 迴歸是由分析資料者依據學理、資料的呈現來設定模式，故檢測選擇的模式是否適合資料是很重要的。配適度的檢測結果可幫助我們支持迴歸的適用性，也可幫助我們選出一最佳的模式。 • 常用的判定值：判定係數 (R2), Cp, AIC, BIC

變異數分析表（ANOVA table） 變異來源 SS df MS F p-value 迴歸 SSR k P(F>F0) 誤差 SSE N-k-1 合計 SSTO N-1 SSTO = SSR+SSE Analysis of Variance; DV: Y Sums of Mean Squares df Squares F p-level Regress. 24015.28 2 12007.64 99.1035 .00 Residual 2180.93 18 121.16 Total 26196.21

判定係數 • 在統計上，我們常使用判定係數（R2）來說明Y之總變異由解釋變數解釋的能力 • 0 ≦R2≦1 • 只有一解釋變數時，R2 = r2，此處r是Y與X的相關係數。 • 增加 X 變數個數，一定會使 R2值增加。 SSTO = SSR+SSE

校正複判定係數 • 高的R2 值並不一定表示配套的模式適合。 • 有些學者建議以 X 變數個數調整後的校正複判定係數(Adjusted coef. of determination )為選擇模式的標準。 Regression Summary for Dependent Variable: Y R= .95746877 R2 = .91674645 Adjusted R2 = .90749606 F(2,18)=99.104 p<.00000 Std.Error of estimate: 11.007

高的R2值並不一定表示配套的模式適合 【例】研究某林區樹木之高度(high)，株數(no) 對樹木直徑的影響迴歸式一迴歸式二 R2 = 0.617， Ra2 = 0.553 R2 = 0.589， Ra2 = 0.557

Information Criterior • 目前常使用AIC (Akaike information criterior)及SBC (Schwartz information criterior) 的值來選擇較適合資料的模式： • 觀念上，AIC 與 SBC的值越小表示模式越適合 SAS tip Model → R-squared selection → ˇAkaike’s information ˇ SBC

第五節美、日股市對台股之影響 • 欲分析美、日的股市報酬對台灣股市的影響

第五節美、日股市對台股之影響 • 觀察：美、日的股市前日報酬對台股的影響明顯 • 設立模式：前一日日股今日台股前一日美股

SAS報表輸出 截距不顯著日股的額外影響不顯著

迴歸分析：刪去日股變數 注意：R-square 變小，但是Adj R-sq 比較大

預測區間

迴歸分析無截距項 • 假設迴歸分析無截距項表示為 Rtw,t=β1*rus,t-1+β2*rjp,t-1+εt (即是少了一項β0) 只有兩個參數估計沒有截距項的估計 SAS tip Model → no intercept

一般而言，除非有很強力的理論或是證據認為模型是無截距項，否則一般皆應引入截距項，因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。一般而言，除非有很強力的理論或是證據認為模型是無截距項，否則一般皆應引入截距項，因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。

第六節使用EXCEL進行迴歸分析 註：excel 資料分析中的迴歸限於簡易迴歸使用

美股對台股之影響分析 • 估計的迴歸直線為台股報酬 = 0.000167 + 0.458 X, X為美股前一日的報酬迴歸線標準誤 = 0.0146 • 此迴歸線之判定係數=0.1185，表示台股報酬的變化可由美股前一日的報酬解釋 11.85% • 由此迴歸線得到：美股前一日的報酬每增加1，估計台股報酬增加0.458 • 若美股前一日的報酬為 5%，預估台股報酬2.29% • 二變數的相關係數 = 0.344，表示台股報酬與美股前一日報酬是弱相關

斜率經 t-檢定，p-值=0.343，斜率顯著不為 0，意指美股前一日的報酬對台股當日的影響顯著估計斜率=0.458，標準誤 = 0.208 95% 斜率的信賴區間為0.458±(2.025)0.208

SAS Enterprise Guide：簡易迴歸分析 迴歸分析：Analysis → Regression → Linear Task roles：指定 Explanatory variables 解釋變數(t) Dependent variables 依變數 (Y) Model : 指定模式選擇法 Statistics：指定要列印的統計值 Plots：指定預測結果圖形 ■ Predicted (預測圖) ■ Residual (殘差圖) Predictions：儲存統計值，預測值，或殘差 Title :標題指定

Plots：指定預測結果圖形 ■Predicted ˇobserved vs independents Show limits ⊙ prediction limits 指定殘差圖 ■Residual ˇstudentized vs independents Predictions：儲存統計值，預測值，或殘差 ■ Data ˇoriginal sample ■ Additional statistics ˇResiduals ˇPrediction limits ■ Save ˇpreditions ■ Display output

第三章迴歸分析