1 / 66

統計學

統計學. 郭信霖 許淑卿. 第十二章  相 關與簡單線性 迴歸分析. ■ 12-1 散佈圖與變數間的關係 ■ 12-2 相關分析與 Spearman ■ 12-3 線性迴歸模型 ■ 12-4 殘差分析與線性轉換 ■ 12-5 電腦範例 ■ 12-6 流程圖. 12-1 散佈圖與變數間的關係. 散佈圖( scatter diagram ):. 圖 12-1 散佈圖. 變數之間存在三種關係: 1. 函數關係 2. 統計獨立 3. 統計關係 研究兩變數或兩變數以上的相關關係,方法有二:

baird
Download Presentation

統計學

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計學 郭信霖 許淑卿

  2. 第十二章  相關與簡單線性 迴歸分析 ■ 12-1散佈圖與變數間的關係 ■ 12-2相關分析與Spearman ■ 12-3線性迴歸模型 ■ 12-4殘差分析與線性轉換 ■ 12-5電腦範例 ■ 12-6流程圖

  3. 12-1 散佈圖與變數間的關係 • 散佈圖(scatter diagram): 圖12-1 散佈圖

  4. 變數之間存在三種關係: 1. 函數關係 2. 統計獨立 3. 統計關係 研究兩變數或兩變數以上的相關關係,方法有二: 相關分析(correlation analysis) 迴歸分析(regression analysis)

  5. 12-2 相關分析與Spearman相關 係數 • 相關分析:為衡量兩隨機變數之間關係的方法。 • 相關係數(correlation coefficient):用以衡量兩隨機變數間之直線關係程度的大小與方向的量數謂之。

  6. 一、共變異數 XY= Cov(X, Y) = E[(X - X)(Y - Y)] = E(XY) - X Y 其性質如下: 1. Cov(X, Y) = Cov(Y, X ) 2. Cov(aX + b, cY + d) = acCov(X, Y),a,b,c,d為常數 3. 若X Y,則Cov(X, Y) = 0;反之,未必成立。 • Cov(X, X) = Var(X) =  • Cov(b, cY) = 0

  7. 二、相關係數 1. 母體相關係數 XY= = = E XY稱為兩隨機變數X,Y的母體相關係數,其數值範圍為 - 1 XY 1。

  8. (1)XY= 0表示兩隨機變數X與Y沒有直線關係。 (2)XY> 0表示兩隨機變數X與Y間有正向的直線關係。 (3)XY= 1表示兩隨機變數X與Y完全正相關、斜率為正的直線關係。 (4)XY< 0表示兩隨機變數X與Y間有負向的直線關係。 (5)XY= - 1表示兩隨機變數X與Y完全負相關,斜率為負的直線關係。

  9. (a) (b) (c) (d) (e) (f) 圖12-2 母體相關係數的散佈圖

  10. 2. 樣本相關係數 rXY= = = = = 其中xi= Xi- ,yi= Yi- SXY= 為樣本共變異數 S = ,S =

  11. 樣本相關係數rXY,又稱為Pearson積差相關係數(Pearson product-moment correlation coefficient)。 (1) r = 0時,表示X與Y為零相關,沒有直線關係。 (2) | r |  0.3,表示X與Y為低度相關。 (3) 0.3 < | r |  0.7時,表示X與Y為中度相關。 (4) 0.7 < | r | < 1時,表示X與Y為高度相關。 (5) | r | = 1時,表示X與Y之各相關點完全落在一條直線 上,為完全直線關係(指完全正相關或完全負相 關)。

  12. 3. 相關係數之統計推論 判斷兩個變數之間是否存在有線性關係的方法有三: 一為利用相關係數的檢定。 另外兩種方法為利用線性迴歸分析中迴歸係數的推論。 討論兩個變數間是否有顯著相關的檢定: (1)當XY= 0時,rXY的抽樣分配與t分配、F分配有關,即 T = = r~ t(n - 2) 或F = T 2 = ~ F(1, n - 2) 2

  13. 檢定兩變數間是否有顯著相關( XY= 0 )的步驟: (1)假設: H0:XY = 0 , H1:XY  0 (2)統計量: T = 或 F = (3)拒絕H0區域:CR = { | T | > t/2( n - 2 ) }或CR = { F > F( 1, n - 2 ) } (4)計算統計量的值與結論: 若T0CR或F0CR,則拒絕H0;否則,不能拒絕H0。 假若單尾假設檢定,只能利用t分配檢定,不可用F分配檢定。 2

  14. (2)當XY 0時,rXY的抽樣分配能利用Fisher轉換統計量 Zr之抽樣分配為近似常態分配來處理。 Zr= ln ~N ln ,

  15. 檢定XY = 0 0之步驟: (1)假設:H0:XY = 0 0,H1:0 (2)統計量: Z = ~N( 0, 1 ) (3)拒絕H0區域:CR = { | Z | > z/2 } (4)計算統計量的值與結論 若Z0CR,則拒絕H0;否則,不能拒絕H0。

  16. 三、Spearman等級相關係數 Spearman等級相關係數(Spearman rank correlation coefficients):是種不受極端值的影響且母體分配為未知或為屬性資料,而以『等級』為基礎,測量兩變數間相關程度及方向的量數,以rs表示。 計算rs的步驟: 1.先將成對觀測值(Xi, Yi)分別由小至大順序排列,並給予適 當等級。若有相同觀測值,則以應得等級之平均數代替。 2.計算Xi與Yi兩個配對等級的差異di。 3.代入公式rs = 1 - ,n為成對資料的個數。

  17. 假設檢定的步驟如下: 1. 假設: H0:s = 0,H1:s 0 (或H1:s> 0,有等級正的關聯) • 統計量: rs = 1 – 3. 拒絕H0區域: CR = { | rs| > rs* } 4. 計算統計量的值與結論:若rs0CR,則拒絕H0;否則,不拒絕H0。

  18. 在實用上,當n  10時檢定統計量可變為 • F = ~ F( 1, n-2 ) 則拒絕域為CR = { F > F( 1, n - 2 ) } • T = = ~ t( n - 2 ) 則雙尾檢定之拒絕域為CR = { |T | > t/2( n - 2 ) }右尾定之拒絕域為CR = { T > t( n - 2 ) }左尾定之拒絕域為CR = { T < - t( n - 2 ) }

  19. 若n  10時,也可用rs的分配近似常態分配N ( 0, ),故 Z = rs ~N( 0, 1 ) 則

  20. 12-20

  21. 12-3 線性迴歸模型 一、迴歸的意義 英國人生物統計學家Galton(1822~1911),研究遺傳學: 比較父親與大兒子身高的關係,結果發現如下結論 ( 1 ) 身材較高的父親比較矮的父親,傾向於有較高的兒子; ( 2 ) 較平均身高高的父親,他的兒子會比父親矮一點; ( 3 ) 比平均身高矮的父親,他的兒子會比父親高一點。

  22. Galton把這種平均身高的趨勢,謂之「迴歸」。 1.線性迴歸方程式 迴歸分析依自變數的多寡,分為簡單迴歸分析與複迴歸分 析(multiple regression analysis)兩種。 (1)簡單迴歸分析(simple regression analysis) (2)複迴歸分析(multiple regression analysis

  23. 2. 散佈圖之功用 散佈圖,如圖12-1。由圖中顯示X與Y兩變數間,具有相當程度的線性關係存在,謂之線性迴歸,其方程式謂之迴歸直線方程式,如圖12-4。 圖12-4 散佈圖與樣本迴歸直線

  24. 二、簡單線性迴歸模型 簡單線性迴歸模型如下: Yi = 0 + 1Xi + i,i = 1, 2, …, n 其中Yi:第i次試驗中因應數的值(是個隨機變數) 0,1:母體的迴歸係數(regression coefficients) Xi:第i次試驗中自變數的值(通常為已知常數) i:隨機誤差項(random error term),為獨立的隨機變數 且E(i) = 0,Var(i) = 2,Cov(i, j ) = 0,i j,i,j = 1, 2, …, n

  25. 簡單線性迴歸模型之圖形 圖12-5 簡單母體迴歸直線模型

  26. 2.母體與樣本迴歸線、母體與樣本迴歸係數 母體迴歸直線為: Y|X = E(Y |X) = 0 + 1X 樣本迴歸直線為: = b0 + b1X 圖12-6 母體與樣本之迴歸直線;隨機誤差i與殘差ei的比較

  27. 從圖12-6中,很容易看出對任何一個指定值Xi,樣本中每一觀測點(Xi, Yi),都有下列關係: Yi = + i, i = 1 , 2 , ……, n 依樣本迴歸為: Yi = + ei 式中ei為殘差或剩餘(residual)或估計誤差(error),表示樣本點(Xi, Yi)與樣本迴歸線上對x軸的垂直距離,即 ei = Yi–

  28. 故,i與ei的區別,不難從圖12-6看出。 由圖12-4之散佈圖中,我們必須找到最能配適於樣本點的直線,但什麼是最適合的直線呢? 結論:應使達到最小的配適直線,這就是一般所謂最小平方法(method of least squares)。

  29. 3.求母體迴歸係數的估計方法:最小平方法 圖12-7 最小平方法

  30. 為了使SSE = = 達到最小,及應用微積分的技巧,分別對b0,b1作偏微分,且令為0,即可得之標準方程組(normal equation)。 或

  31. 參數 0 與 1 的最小平方估計值分別為: 則Y對X的樣本迴歸直線方程式為 = b0 + b1Xi

  32. 另外,利用最小平方法所配置的直線迴歸,還要滿足下列條件:另外,利用最小平方法所配置的直線迴歸,還要滿足下列條件: (1) 或 = (2) min (3) = 0 (4) = 0 (5) 直線迴歸必通過點( , ) 而相關係數r的正負號乃與配適的迴歸直線之b1的正負號一致,即表示 b1 > 0,則r > 0;反之b1 < 0,則r < 0。

  33. 4. 樣本迴歸係數(coefficient of regression): b0、b1 5. 母體2的估計: • 假設Yi來自相同的母體,則2的不偏估計量為S2。 = S2 =

  34. (2)在迴歸模型中,依自變數Xi的不同,Yi 因而分別來自不同的機率分配,則2的不偏估計量為S = MSE,估計標準誤為 。 = S = = = MSE 其SSE = = - b0 - b1 = (n -1)(S - b S ) = (n - 1)S (1 – r )

  35. 三、迴歸係數的推論 為了要建立參數 0,1的區間估計與檢定,我們必須對 i 的分配函數形式作基本假設: (1) i為一獨立的隨機誤差項且服從N(0, 2)。 (2) Yi為一獨立的隨機變數且服從N ( 0 + 1X i, 2 ), Xi為固定數。 (3) i與X i無關,即Cov(i, X i ) = 0。 Yi = 0 + 1Xi + i,i~ N( 0 , 2 ),i = 1 , 2 ,…, n 經由最小平方法,得知Yi的估計值為 = b0 + b1Xi

  36. 而且 及 =

  37. 當i~ N( 0, 2 )時,則可得 b0~ N; b1~ N 但 2未知,我們常用均方誤差(mean square error, MSE)MSE = 作為 2的估計量,故可得b0, b1的抽樣分配為服從自由度n - 2的t分配。

  38. ~t(n - 2) T = 及 T = ~t(n - 2)

  39. 0的推論 ( 1 ) 信賴區間: 0在信賴係數(1 - )100%下的信賴區間為 b0 - t/2 , b0 + t/2 ( 2 ) 假設檢定: 檢定步驟如下: 假設:H0:0 = k , H1:0k

  40. 統計量: T = 拒絕H0區域: CR = { | T | > t/2(n - 2) } 計算統計量的值與結論: 若T0CR,則拒絕H0;否則,不能拒絕H0。

  41. 2. 1的推論 (1)信賴區間: 1在信賴係數(1 - )100%下的信賴區間為 , b1 + t/2 (2)假設檢定: 檢定步驟如下: 假設: H0:1 = k , H1:1k

  42. 統計量: T = 拒絕H0區域: CR = { | T | > t/2(n-2) } 計算統計量的值與結論: 若T0CR,則拒絕H0;否則,不能拒絕H0。

  43. 四、變異數分析法 ANOVA法是藉由分割平方和與相對應的自由度來進行分析。如下圖: 圖12-8 總離差的分割

  44. 故得知 = + 式中 謂之總變異或總平方和,以SST表示。 謂之迴歸變異或迴歸平方和,以SSR表示。 謂之誤差平方和,以SSE表示。 其簡化公式:

  45. 檢定H0:1 = 0或 = 0,以F統計量檢定之,如下表 ANOVA表

  46. 在迴歸分析中,F分配與t分配檢定情況如下: 1.F分配只能檢定雙尾: H0:1 = 0 , H1:1 0若F > F(1, n - 2),則拒絕H0;否則,不能拒絕H0。 2. t分配可檢定雙尾及單尾 (1) H0:1 = 0 , H1:1 0若 | T | > t/2( n - 2 ),則拒絕H0;否則,不能拒絕H0。 (2) H0:1 0 , H1:1 > 0 若T > t(n - 2),則拒絕H0;否則,不能拒絕H0。 (3) H0:1 0 , H1:1 < 0 若T < - t(n - 2),則拒絕H0;否則,不能拒絕H0。

  47. 判定係數(coefficient of determination,R 2 ): 表示X對Y的解釋能力或解釋變異的比例。 0 R 2 = = 1-  1 R2越大時,表示X所提供的訊息對Y越有用,如下圖。 (a) (b) 圖12-9 R 2 = 1和R 2 = 0的散佈圖

  48. 五、迴歸預測 1.E(Y |X0)的信賴區間: E(Y |X0)在信賴係數(1 - )100%下的信賴區間為: 由Var()公式可知,若X0與之距離越遠,則的變異數越大,信賴區間就愈寬;在一個已知的信賴係數下,若估計標準誤增大,則信賴區間的寬度,亦隨之增大;但樣本大小n增加,可預期信賴區間的寬度將減小。

  49. 單一預測值Y0的預測區間 Y0在信賴係數(1 - )100%之下的預測區間為 t/2(n - 2)

  50. 最後,將E(Y |X0)之信賴區間及Y0的預測區間圖形如下: 圖12-10 信賴帶(confidence band)

More Related