420 likes | 945 Views
第三章 迴歸分析. 如何估計一合理的股價? 影響股價的因素: 紅利 (dividend) 、報酬率、 營業額、公司利潤、其它 ( 不確定因素 ) 每一因素的影響程度可能不一樣 以一數學式描述 股價 =β 1 ( 紅利 ) +β 2 ( 報酬率 ) +β 3 ( 營業額 ) +β 4 ( 利潤 ) + 不確定因素 此即為一線性迴歸模式. 第一節 線性迴歸模型. ε t ~ NID( 0, σ 2 ). 其中 Y t 為依變數 (dependent var.)
E N D
第三章 迴歸分析 • 如何估計一合理的股價? • 影響股價的因素: 紅利 (dividend)、報酬率、 營業額、公司利潤、其它(不確定因素) • 每一因素的影響程度可能不一樣 • 以一數學式描述 股價 =β1 (紅利) +β2 (報酬率) +β3 (營業額) +β4 (利潤) +不確定因素 • 此即為一線性迴歸模式
第一節 線性迴歸模型 εt ~ NID( 0, σ2) 其中 Yt 為依變數 (dependent var.) Xtj為解釋變數 (explanatory var.),或自變數(dependent var.) βt為參數 (parameter) β0 為截距(intercept),捕捉模式的解釋變數無法解釋平均效果 εtj為隨機誤差項 (error),個案的變異量 註解 : 1、線性迴歸模型意指其對參數為線性的方程式 2、此 k 個解釋變數 , 可為量性或質性變數, E(Y) = β0+ β1X 1 +…….+ βkX k
0+1X1+2X2+…+ kXk之意義 E(Yt|X1t ,…,Xkt)=0+1X1t+2X2t+…+ kXkt 在控制變數或條件下期望的觀察值 實際觀察到的值Yt為此條件期望值加上隨機誤差項(random error term) Yt=E(Yt|X1t ,…,Xkt)+t
模型假設 • 應變數(Yt)可表達為若干個已知自變數(Xt )的線性函數與一誤差項(t)之和。 • 誤差項(t)的期望值為零。E(t)=0 • 誤差項(t)彼此不相關,且每一誤差項的變異數相同(獨立,同值 homoskedasticity)。 • 自變數為固定變數,且為非隨機(nonstochastic)。 • 自變數間不存在線性相關,且觀察值的個數要大於待估計的參數數目。
有關假設之常見問題 • 解釋變數選擇錯誤。 • 真實的模式非線性 線性關係是指被解釋變數為參數的線性函數,而非解釋變數的線性函數,如Yt=a+bXt2 + t 可定義Zt=Xt2,但Yt=a+{(Xt-b)/c}則無法透過變數轉換轉成線性模型。 • 估計參數不穩定:會隨時間的改變而有不同。
其他常見問題 • 假設3中,若誤差項不符合獨立同質的假說,則可能產生的問題: • 1.異質變異(heteroskedasticity) • 2.自我相關(autocorrelation),即誤差項與前期的誤差相關 • 假設5中,若自變數間有高度相關的話,則可能產生共線性(multicollineariity) • 針對上列問題,使用特殊迴歸方法來解決。(將在第四章介紹)
第二節 參數估計:OLS估計法 • 以簡單線性迴歸模型為例: Yt = 0+1X1t +t • 找一組(0,1)的組合,將樣本誤差項(et=Yt-0-1X1t )的平方和極小化,即 min (Yt-0-1X1t )2
複迴歸模式的矩陣表示 • 矩陣 X 與β可表示為
複迴歸模式的OLS估計值 • 複迴歸模式參數β與變異數σ2的OLS估計值的矩陣表達如下: • 其中, 為模式之殘差 • 殘差:觀察到未能被預測模式所解釋的部分。
估計量的期望值與變異數 • 參數的OLS估計量的期望值與變異數為 • 亦即此OLS估計量是不偏的 • 根據高斯—馬可夫定理,可證明的OLS估計量是最佳線性不偏估計量(BLUE),也就是在所有的線性估計量中,OLS估計量的變異數是最小的。
估計量的標準誤 • 上式中代k=1,簡單線性迴歸模式中,0、1估計量的變異數如下: • 觀察上式得到:若解釋變數的變異或波動越大,則0、1估計量的變異數越 ?,而精確度也就越?。 • 標準誤:變異數開根號,是估計精度的測值。
迴歸式的意義 迴歸係數的意義 例:兩個自變數的模式, Y =β0+β1X1+β2 X2+ ε b1表示 X2 固定時,估計平均反應(Y)隨 X1之每一單位增加而改變的量 (估計 X1的改變對 Y 的影響) b2表示 X1固定時,估計平均反應(Y)隨 X2之每一單位增加而改變的量
範例 : 研究一個社區相館的營業額 (Y,千元) 是否可用該社區 16歲以下人口數 (X1,千人) 和平均每人可支配所得 (X2,千元) 來預測?n=21 St. Err. B of B t(18) p-level Interpret -68.8571 60.01695 -1.14729 .266282 X1 1.4546 .21178 6.86820 .000002 X2 9.3655 4.06396 2.30453 .033321 迴歸式: Y = - 68.9 + 1.45 X1+9.37 X2 解釋:平均每人可支配所得固定時,估計社區 16歲以下人口數增加 1 千元,相館的營業額增加1.45千元,估計標準誤 = .212。 社區 16歲以下人口數固定時,估計平均每人可支配所得 增加 1 千元,相館的營業額增加9.37千元,估計標準誤 = 4.06。
估計量的分配 • 若ε~Normal,可證明以矩陣表示的迴歸模式中,估計量的分配為 • 因此,可得到
各係數的檢定 • H0: i= i0 H1: i i0 在常態分配的假設下,參數的估計量遵循一常態分配,故可以 t-test來檢定參數的顯著性。 • H0: i=0H1: i 0 檢定第 i 個解釋變數的效力 若看SAS報表結果,當p-值小於0.05,則拒絕H0,表示第 i 個解釋變數對Y的影響力顯著
雙尾檢定與單尾檢定 • 雙尾檢定:H1: i 0用報表中的p-value • 單尾檢定:H1: i > 0 (或H1:i < 0) 將報表中的p-value / 2,為確實的 p-值 • 係數的檢定目的是想知道 Xi對 Y的影響是否顯著,但此檢定是在其它解釋變數都已在模式內的情況下做的檢定,屬於額外的影響,非 Xi對 Y 的單純影響。
範例 : 研究一個社區相館的營業額 (Y,千元) 是否可用該社區 16歲以下人口數 (X1,千人) 和平均每人可支配所得 (X2,千元) 來預測?n=21 St. Err. B of B t(18) p-level Interpret -68.8571 60.01695 -1.14729 .266282 X1 1.4546 .21178 6.86820 .000002 X2 9.3655 4.06396 2.30453 .033321 係數檢定結果: 已將平均每人可支配所得考慮後,社區 16歲以下人口數對相館的營業額的影響是顯著的 (t test p-值 = 0.000002) 已將社區 16歲以下人口數考慮後,平均每人可支配所得對相館的營業額的影響是顯著的 (t test p-值 = 0.0333)
第三節 預測 • 考慮簡單線性迴歸模式 • 給一解釋變數的值,x0,其最佳估計值(或預測值)為 • 預測誤差為預測誤差為 • 期望值與變異數為
影響預測精確度的因素: 觀察上式得到影響預測值精確度的因素為: • 樣本的大小(N) • 解釋變數的波動程度( ) • X0偏離解釋變數樣本平均值( )的程度
模式的配適程度 • 迴歸是由分析資料者依據學理、資料的呈現來設定模式,故檢測選擇的模式是否適合資料是很重要的。配適度的檢測結果可幫助我們支持迴歸的適用性,也可幫助我們選出一最佳的模式。 • 常用的判定值:判定係數 (R2), Cp, AIC, BIC
變異數分析表(ANOVA table) 變異來源 SS df MS F p-value 迴 歸 SSR k P(F>F0) 誤 差 SSE N-k-1 合 計 SSTO N-1 SSTO = SSR+SSE Analysis of Variance; DV: Y Sums of Mean Squares df Squares F p-level Regress. 24015.28 2 12007.64 99.1035 .00 Residual 2180.93 18 121.16 Total 26196.21
判定係數 • 在統計上,我們常使用判定係數(R2)來說明Y之總變異由解釋變數解釋的能力 • 0 ≦R2≦1 • 只有一解釋變數時,R2 = r2,此處r是Y與X的相關係數。 • 增加 X 變數個數,一定會使 R2值增加。 SSTO = SSR+SSE
校正複判定係數 • 高的R2 值並不一定表示配套的模式適合。 • 有些學者建議以 X 變數個數調整後的校正複判定係數(Adjusted coef. of determination )為選擇模式的標準。 Regression Summary for Dependent Variable: Y R= .95746877 R2 = .91674645 Adjusted R2 = .90749606 F(2,18)=99.104 p<.00000 Std.Error of estimate: 11.007
高的R2值並不一定表示配套的模式適合 【例 】研究某林區樹木之高度(high),株數(no) 對樹木直徑的影響 迴歸式一迴歸式二 R2 = 0.617, Ra2 = 0.553 R2 = 0.589, Ra2 = 0.557
Information Criterior • 目前常使用AIC (Akaike information criterior)及SBC (Schwartz information criterior) 的值來選擇較適合資料的模式: • 觀念上,AIC 與 SBC的值越小表示模式越適合 SAS tip Model → R-squared selection → ˇAkaike’s information ˇ SBC
第五節 美、日股市對台股之影響 • 欲分析美、日的股市報酬對台灣股市的影響
第五節 美、日股市對台股之影響 • 觀察:美、日的股市前日報酬對台股的影響明顯 • 設立模式: 前一日日股 今日台股 前一日美股
SAS報表輸出 截距不顯著 日股的額外影響不顯著
迴歸分析:刪去日股變數 注意:R-square 變小,但是Adj R-sq 比較大
迴歸分析無截距項 • 假設迴歸分析無截距項表示為 Rtw,t=β1*rus,t-1+β2*rjp,t-1+εt (即是少了一項β0) 只有兩個參數估計沒有截距項的估計 SAS tip Model → no intercept
一般而言,除非有很強力的理論或是證據認為模型是無截距項,否則一般皆應引入截距項,因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。一般而言,除非有很強力的理論或是證據認為模型是無截距項,否則一般皆應引入截距項,因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。
第六節 使用EXCEL進行迴歸分析 註:excel 資料分析中的迴歸限於簡易迴歸使用
美股對台股之影響分析 • 估計的迴歸直線為 台股報酬 = 0.000167 + 0.458 X, X為美股前一日的報酬 迴歸線標準誤 = 0.0146 • 此迴歸線之判定係數=0.1185,表示台股報酬的變化可由美股前一日的報酬解釋 11.85% • 由此迴歸線得到:美股前一日的報酬每增加1,估計台股報酬增加0.458 • 若美股前一日的報酬為 5%,預估台股報酬2.29% • 二變數的相關係數 = 0.344,表示台股報酬與美股前一日報酬是弱相關
斜率經 t-檢定,p-值=0.343,斜率顯著不為 0,意指美股前一日的報酬對台股當日的影響顯著 估計斜率=0.458,標準誤 = 0.208 95% 斜率的信賴區間為0.458±(2.025)0.208
SAS Enterprise Guide: 簡易迴歸分析 迴歸分析:Analysis → Regression → Linear Task roles:指定 Explanatory variables 解釋變數(t) Dependent variables 依變數 (Y) Model : 指定模式選擇法 Statistics:指定要列印的統計值 Plots:指定預測結果圖形 ■ Predicted (預測圖) ■ Residual (殘差圖) Predictions:儲存統計值,預測值,或殘差 Title :標題指定
Plots:指定預測結果圖形 ■Predicted ˇobserved vs independents Show limits ⊙ prediction limits 指定殘差圖 ■Residual ˇstudentized vs independents Predictions:儲存統計值,預測值,或殘差 ■ Data ˇoriginal sample ■ Additional statistics ˇResiduals ˇPrediction limits ■ Save ˇpreditions ■ Display output