1 / 41

第三章 迴歸分析

第三章 迴歸分析. 如何估計一合理的股價? 影響股價的因素: 紅利 (dividend) 、報酬率、 營業額、公司利潤、其它 ( 不確定因素 ) 每一因素的影響程度可能不一樣 以一數學式描述 股價 =β 1 ( 紅利 ) +β 2 ( 報酬率 ) +β 3 ( 營業額 ) +β 4 ( 利潤 ) + 不確定因素 此即為一線性迴歸模式. 第一節 線性迴歸模型. ε t ~ NID( 0, σ 2 ). 其中 Y t 為依變數 (dependent var.)

naida
Download Presentation

第三章 迴歸分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第三章 迴歸分析 • 如何估計一合理的股價? • 影響股價的因素: 紅利 (dividend)、報酬率、 營業額、公司利潤、其它(不確定因素) • 每一因素的影響程度可能不一樣 • 以一數學式描述 股價 =β1 (紅利) +β2 (報酬率) +β3 (營業額) +β4 (利潤) +不確定因素 • 此即為一線性迴歸模式

  2. 第一節 線性迴歸模型 εt ~ NID( 0, σ2) 其中 Yt 為依變數 (dependent var.) Xtj為解釋變數 (explanatory var.),或自變數(dependent var.) βt為參數 (parameter) β0 為截距(intercept),捕捉模式的解釋變數無法解釋平均效果 εtj為隨機誤差項 (error),個案的變異量 註解 : 1、線性迴歸模型意指其對參數為線性的方程式 2、此 k 個解釋變數 , 可為量性或質性變數, E(Y) = β0+ β1X 1 +…….+ βkX k

  3. 0+1X1+2X2+…+ kXk之意義 E(Yt|X1t ,…,Xkt)=0+1X1t+2X2t+…+ kXkt 在控制變數或條件下期望的觀察值 實際觀察到的值Yt為此條件期望值加上隨機誤差項(random error term) Yt=E(Yt|X1t ,…,Xkt)+t

  4. 模型假設 • 應變數(Yt)可表達為若干個已知自變數(Xt )的線性函數與一誤差項(t)之和。 • 誤差項(t)的期望值為零。E(t)=0 • 誤差項(t)彼此不相關,且每一誤差項的變異數相同(獨立,同值 homoskedasticity)。 • 自變數為固定變數,且為非隨機(nonstochastic)。 • 自變數間不存在線性相關,且觀察值的個數要大於待估計的參數數目。

  5. 有關假設之常見問題 • 解釋變數選擇錯誤。 • 真實的模式非線性 線性關係是指被解釋變數為參數的線性函數,而非解釋變數的線性函數,如Yt=a+bXt2 + t 可定義Zt=Xt2,但Yt=a+{(Xt-b)/c}則無法透過變數轉換轉成線性模型。 • 估計參數不穩定:會隨時間的改變而有不同。

  6. 其他常見問題 • 假設3中,若誤差項不符合獨立同質的假說,則可能產生的問題: • 1.異質變異(heteroskedasticity) • 2.自我相關(autocorrelation),即誤差項與前期的誤差相關 • 假設5中,若自變數間有高度相關的話,則可能產生共線性(multicollineariity) • 針對上列問題,使用特殊迴歸方法來解決。(將在第四章介紹)

  7. 第二節 參數估計:OLS估計法 • 以簡單線性迴歸模型為例: Yt = 0+1X1t +t • 找一組(0,1)的組合,將樣本誤差項(et=Yt-0-1X1t )的平方和極小化,即 min (Yt-0-1X1t )2

  8. OLS估計量

  9. 以矩陣表示

  10. 複迴歸模式的矩陣表示 • 矩陣 X 與β可表示為

  11. 複迴歸模式的OLS估計值 • 複迴歸模式參數β與變異數σ2的OLS估計值的矩陣表達如下: • 其中, 為模式之殘差 • 殘差:觀察到未能被預測模式所解釋的部分。

  12. 估計量的期望值與變異數 • 參數的OLS估計量的期望值與變異數為 • 亦即此OLS估計量是不偏的 • 根據高斯—馬可夫定理,可證明的OLS估計量是最佳線性不偏估計量(BLUE),也就是在所有的線性估計量中,OLS估計量的變異數是最小的。

  13. 估計量的標準誤 • 上式中代k=1,簡單線性迴歸模式中,0、1估計量的變異數如下: • 觀察上式得到:若解釋變數的變異或波動越大,則0、1估計量的變異數越 ?,而精確度也就越?。 • 標準誤:變異數開根號,是估計精度的測值。

  14. 迴歸式的意義 迴歸係數的意義 例:兩個自變數的模式, Y =β0+β1X1+β2 X2+ ε b1表示 X2 固定時,估計平均反應(Y)隨 X1之每一單位增加而改變的量 (估計 X1的改變對 Y 的影響) b2表示 X1固定時,估計平均反應(Y)隨 X2之每一單位增加而改變的量

  15. 範例 : 研究一個社區相館的營業額 (Y,千元) 是否可用該社區 16歲以下人口數 (X1,千人) 和平均每人可支配所得 (X2,千元) 來預測?n=21 St. Err. B of B t(18) p-level Interpret -68.8571 60.01695 -1.14729 .266282 X1 1.4546 .21178 6.86820 .000002 X2 9.3655 4.06396 2.30453 .033321 迴歸式: Y = - 68.9 + 1.45 X1+9.37 X2 解釋:平均每人可支配所得固定時,估計社區 16歲以下人口數增加 1 千元,相館的營業額增加1.45千元,估計標準誤 = .212。 社區 16歲以下人口數固定時,估計平均每人可支配所得 增加 1 千元,相館的營業額增加9.37千元,估計標準誤 = 4.06。

  16. 估計量的分配 • 若ε~Normal,可證明以矩陣表示的迴歸模式中,估計量的分配為 • 因此,可得到

  17. 各係數的檢定 • H0: i= i0 H1: i i0 在常態分配的假設下,參數的估計量遵循一常態分配,故可以 t-test來檢定參數的顯著性。 • H0: i=0H1: i 0 檢定第 i 個解釋變數的效力 若看SAS報表結果,當p-值小於0.05,則拒絕H0,表示第 i 個解釋變數對Y的影響力顯著

  18. 雙尾檢定與單尾檢定 • 雙尾檢定:H1: i 0用報表中的p-value • 單尾檢定:H1: i > 0 (或H1:i < 0) 將報表中的p-value / 2,為確實的 p-值 • 係數的檢定目的是想知道 Xi對 Y的影響是否顯著,但此檢定是在其它解釋變數都已在模式內的情況下做的檢定,屬於額外的影響,非 Xi對 Y 的單純影響。

  19. 範例 : 研究一個社區相館的營業額 (Y,千元) 是否可用該社區 16歲以下人口數 (X1,千人) 和平均每人可支配所得 (X2,千元) 來預測?n=21 St. Err. B of B t(18) p-level Interpret -68.8571 60.01695 -1.14729 .266282 X1 1.4546 .21178 6.86820 .000002 X2 9.3655 4.06396 2.30453 .033321 係數檢定結果: 已將平均每人可支配所得考慮後,社區 16歲以下人口數對相館的營業額的影響是顯著的 (t test p-值 = 0.000002) 已將社區 16歲以下人口數考慮後,平均每人可支配所得對相館的營業額的影響是顯著的 (t test p-值 = 0.0333)

  20. 第三節 預測 • 考慮簡單線性迴歸模式 • 給一解釋變數的值,x0,其最佳估計值(或預測值)為 • 預測誤差為預測誤差為 • 期望值與變異數為

  21. 影響預測精確度的因素: 觀察上式得到影響預測值精確度的因素為: • 樣本的大小(N) • 解釋變數的波動程度( ) • X0偏離解釋變數樣本平均值( )的程度

  22. 模式的配適程度 • 迴歸是由分析資料者依據學理、資料的呈現來設定模式,故檢測選擇的模式是否適合資料是很重要的。配適度的檢測結果可幫助我們支持迴歸的適用性,也可幫助我們選出一最佳的模式。 • 常用的判定值:判定係數 (R2), Cp, AIC, BIC

  23. 變異數分析表(ANOVA table) 變異來源 SS df MS F p-value 迴 歸 SSR k P(F>F0) 誤 差 SSE N-k-1 合 計 SSTO N-1 SSTO = SSR+SSE Analysis of Variance; DV: Y Sums of Mean Squares df Squares F p-level Regress. 24015.28 2 12007.64 99.1035 .00 Residual 2180.93 18 121.16 Total 26196.21

  24. 判定係數 • 在統計上,我們常使用判定係數(R2)來說明Y之總變異由解釋變數解釋的能力 • 0 ≦R2≦1 • 只有一解釋變數時,R2 = r2,此處r是Y與X的相關係數。 • 增加 X 變數個數,一定會使 R2值增加。 SSTO = SSR+SSE

  25. 校正複判定係數 • 高的R2 值並不一定表示配套的模式適合。 • 有些學者建議以 X 變數個數調整後的校正複判定係數(Adjusted coef. of determination )為選擇模式的標準。 Regression Summary for Dependent Variable: Y R= .95746877 R2 = .91674645 Adjusted R2 = .90749606 F(2,18)=99.104 p<.00000 Std.Error of estimate: 11.007

  26. 高的R2值並不一定表示配套的模式適合 【例 】研究某林區樹木之高度(high),株數(no) 對樹木直徑的影響 迴歸式一迴歸式二 R2 = 0.617, Ra2 = 0.553 R2 = 0.589, Ra2 = 0.557

  27. Information Criterior • 目前常使用AIC (Akaike information criterior)及SBC (Schwartz information criterior) 的值來選擇較適合資料的模式: • 觀念上,AIC 與 SBC的值越小表示模式越適合 SAS tip Model → R-squared selection → ˇAkaike’s information ˇ SBC

  28. 第五節 美、日股市對台股之影響 • 欲分析美、日的股市報酬對台灣股市的影響

  29. 第五節 美、日股市對台股之影響 • 觀察:美、日的股市前日報酬對台股的影響明顯 • 設立模式: 前一日日股 今日台股 前一日美股

  30. SAS報表輸出 截距不顯著 日股的額外影響不顯著

  31. 迴歸分析:刪去日股變數 注意:R-square 變小,但是Adj R-sq 比較大

  32. 預測區間

  33. 迴歸分析無截距項 • 假設迴歸分析無截距項表示為 Rtw,t=β1*rus,t-1+β2*rjp,t-1+εt (即是少了一項β0) 只有兩個參數估計沒有截距項的估計 SAS tip Model → no intercept

  34. 一般而言,除非有很強力的理論或是證據認為模型是無截距項,否則一般皆應引入截距項,因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。一般而言,除非有很強力的理論或是證據認為模型是無截距項,否則一般皆應引入截距項,因為截距項為捕捉模型的解釋變數無法解釋之變異的淨平均效果。

  35. 第六節 使用EXCEL進行迴歸分析 註:excel 資料分析中的迴歸限於簡易迴歸使用

  36. 美股對台股之影響分析 • 估計的迴歸直線為 台股報酬 = 0.000167 + 0.458 X, X為美股前一日的報酬 迴歸線標準誤 = 0.0146 • 此迴歸線之判定係數=0.1185,表示台股報酬的變化可由美股前一日的報酬解釋 11.85% • 由此迴歸線得到:美股前一日的報酬每增加1,估計台股報酬增加0.458 • 若美股前一日的報酬為 5%,預估台股報酬2.29% • 二變數的相關係數 = 0.344,表示台股報酬與美股前一日報酬是弱相關

  37. 斜率經 t-檢定,p-值=0.343,斜率顯著不為 0,意指美股前一日的報酬對台股當日的影響顯著 估計斜率=0.458,標準誤 = 0.208 95% 斜率的信賴區間為0.458±(2.025)0.208

  38. SAS Enterprise Guide: 簡易迴歸分析 迴歸分析:Analysis → Regression → Linear Task roles:指定 Explanatory variables 解釋變數(t) Dependent variables 依變數 (Y) Model : 指定模式選擇法 Statistics:指定要列印的統計值 Plots:指定預測結果圖形 ■ Predicted (預測圖) ■ Residual (殘差圖) Predictions:儲存統計值,預測值,或殘差 Title :標題指定

  39. Plots:指定預測結果圖形 ■Predicted ˇobserved vs independents Show limits ⊙ prediction limits 指定殘差圖 ■Residual ˇstudentized vs independents Predictions:儲存統計值,預測值,或殘差 ■ Data ˇoriginal sample ■ Additional statistics ˇResiduals ˇPrediction limits ■ Save ˇpreditions ■ Display output

More Related