760 likes | 1.34k Views
統計學. 郭信霖 許淑卿. 第十二章 相 關與簡單線性 迴歸分析. ■ 12-1 散佈圖與變數間的關係 ■ 12-2 相關分析與 Spearman ■ 12-3 線性迴歸模型 ■ 12-4 殘差分析與線性轉換 ■ 12-5 電腦範例 ■ 12-6 流程圖. 12-1 散佈圖與變數間的關係. 散佈圖( scatter diagram ):. 圖 12-1 散佈圖. 變數之間存在三種關係: 1. 函數關係 2. 統計獨立 3. 統計關係 研究兩變數或兩變數以上的相關關係,方法有二:
E N D
統計學 郭信霖 許淑卿
第十二章 相關與簡單線性 迴歸分析 ■ 12-1散佈圖與變數間的關係 ■ 12-2相關分析與Spearman ■ 12-3線性迴歸模型 ■ 12-4殘差分析與線性轉換 ■ 12-5電腦範例 ■ 12-6流程圖
12-1 散佈圖與變數間的關係 • 散佈圖(scatter diagram): 圖12-1 散佈圖
變數之間存在三種關係: 1. 函數關係 2. 統計獨立 3. 統計關係 研究兩變數或兩變數以上的相關關係,方法有二: 相關分析(correlation analysis) 迴歸分析(regression analysis)
12-2 相關分析與Spearman相關 係數 • 相關分析:為衡量兩隨機變數之間關係的方法。 • 相關係數(correlation coefficient):用以衡量兩隨機變數間之直線關係程度的大小與方向的量數謂之。
一、共變異數 XY= Cov(X, Y) = E[(X - X)(Y - Y)] = E(XY) - X Y 其性質如下: 1. Cov(X, Y) = Cov(Y, X ) 2. Cov(aX + b, cY + d) = acCov(X, Y),a,b,c,d為常數 3. 若X Y,則Cov(X, Y) = 0;反之,未必成立。 • Cov(X, X) = Var(X) = • Cov(b, cY) = 0
二、相關係數 1. 母體相關係數 XY= = = E XY稱為兩隨機變數X,Y的母體相關係數,其數值範圍為 - 1 XY 1。
(1)XY= 0表示兩隨機變數X與Y沒有直線關係。 (2)XY> 0表示兩隨機變數X與Y間有正向的直線關係。 (3)XY= 1表示兩隨機變數X與Y完全正相關、斜率為正的直線關係。 (4)XY< 0表示兩隨機變數X與Y間有負向的直線關係。 (5)XY= - 1表示兩隨機變數X與Y完全負相關,斜率為負的直線關係。
(a) (b) (c) (d) (e) (f) 圖12-2 母體相關係數的散佈圖
2. 樣本相關係數 rXY= = = = = 其中xi= Xi- ,yi= Yi- SXY= 為樣本共變異數 S = ,S =
樣本相關係數rXY,又稱為Pearson積差相關係數(Pearson product-moment correlation coefficient)。 (1) r = 0時,表示X與Y為零相關,沒有直線關係。 (2) | r | 0.3,表示X與Y為低度相關。 (3) 0.3 < | r | 0.7時,表示X與Y為中度相關。 (4) 0.7 < | r | < 1時,表示X與Y為高度相關。 (5) | r | = 1時,表示X與Y之各相關點完全落在一條直線 上,為完全直線關係(指完全正相關或完全負相 關)。
3. 相關係數之統計推論 判斷兩個變數之間是否存在有線性關係的方法有三: 一為利用相關係數的檢定。 另外兩種方法為利用線性迴歸分析中迴歸係數的推論。 討論兩個變數間是否有顯著相關的檢定: (1)當XY= 0時,rXY的抽樣分配與t分配、F分配有關,即 T = = r~ t(n - 2) 或F = T 2 = ~ F(1, n - 2) 2
檢定兩變數間是否有顯著相關( XY= 0 )的步驟: (1)假設: H0:XY = 0 , H1:XY 0 (2)統計量: T = 或 F = (3)拒絕H0區域:CR = { | T | > t/2( n - 2 ) }或CR = { F > F( 1, n - 2 ) } (4)計算統計量的值與結論: 若T0CR或F0CR,則拒絕H0;否則,不能拒絕H0。 假若單尾假設檢定,只能利用t分配檢定,不可用F分配檢定。 2
(2)當XY 0時,rXY的抽樣分配能利用Fisher轉換統計量 Zr之抽樣分配為近似常態分配來處理。 Zr= ln ~N ln ,
檢定XY = 0 0之步驟: (1)假設:H0:XY = 0 0,H1:0 (2)統計量: Z = ~N( 0, 1 ) (3)拒絕H0區域:CR = { | Z | > z/2 } (4)計算統計量的值與結論 若Z0CR,則拒絕H0;否則,不能拒絕H0。
三、Spearman等級相關係數 Spearman等級相關係數(Spearman rank correlation coefficients):是種不受極端值的影響且母體分配為未知或為屬性資料,而以『等級』為基礎,測量兩變數間相關程度及方向的量數,以rs表示。 計算rs的步驟: 1.先將成對觀測值(Xi, Yi)分別由小至大順序排列,並給予適 當等級。若有相同觀測值,則以應得等級之平均數代替。 2.計算Xi與Yi兩個配對等級的差異di。 3.代入公式rs = 1 - ,n為成對資料的個數。
假設檢定的步驟如下: 1. 假設: H0:s = 0,H1:s 0 (或H1:s> 0,有等級正的關聯) • 統計量: rs = 1 – 3. 拒絕H0區域: CR = { | rs| > rs* } 4. 計算統計量的值與結論:若rs0CR,則拒絕H0;否則,不拒絕H0。
在實用上,當n 10時檢定統計量可變為 • F = ~ F( 1, n-2 ) 則拒絕域為CR = { F > F( 1, n - 2 ) } • T = = ~ t( n - 2 ) 則雙尾檢定之拒絕域為CR = { |T | > t/2( n - 2 ) }右尾定之拒絕域為CR = { T > t( n - 2 ) }左尾定之拒絕域為CR = { T < - t( n - 2 ) }
若n 10時,也可用rs的分配近似常態分配N ( 0, ),故 Z = rs ~N( 0, 1 ) 則
12-3 線性迴歸模型 一、迴歸的意義 英國人生物統計學家Galton(1822~1911),研究遺傳學: 比較父親與大兒子身高的關係,結果發現如下結論 ( 1 ) 身材較高的父親比較矮的父親,傾向於有較高的兒子; ( 2 ) 較平均身高高的父親,他的兒子會比父親矮一點; ( 3 ) 比平均身高矮的父親,他的兒子會比父親高一點。
Galton把這種平均身高的趨勢,謂之「迴歸」。 1.線性迴歸方程式 迴歸分析依自變數的多寡,分為簡單迴歸分析與複迴歸分 析(multiple regression analysis)兩種。 (1)簡單迴歸分析(simple regression analysis) (2)複迴歸分析(multiple regression analysis
2. 散佈圖之功用 散佈圖,如圖12-1。由圖中顯示X與Y兩變數間,具有相當程度的線性關係存在,謂之線性迴歸,其方程式謂之迴歸直線方程式,如圖12-4。 圖12-4 散佈圖與樣本迴歸直線
二、簡單線性迴歸模型 簡單線性迴歸模型如下: Yi = 0 + 1Xi + i,i = 1, 2, …, n 其中Yi:第i次試驗中因應數的值(是個隨機變數) 0,1:母體的迴歸係數(regression coefficients) Xi:第i次試驗中自變數的值(通常為已知常數) i:隨機誤差項(random error term),為獨立的隨機變數 且E(i) = 0,Var(i) = 2,Cov(i, j ) = 0,i j,i,j = 1, 2, …, n
簡單線性迴歸模型之圖形 圖12-5 簡單母體迴歸直線模型
2.母體與樣本迴歸線、母體與樣本迴歸係數 母體迴歸直線為: Y|X = E(Y |X) = 0 + 1X 樣本迴歸直線為: = b0 + b1X 圖12-6 母體與樣本之迴歸直線;隨機誤差i與殘差ei的比較
從圖12-6中,很容易看出對任何一個指定值Xi,樣本中每一觀測點(Xi, Yi),都有下列關係: Yi = + i, i = 1 , 2 , ……, n 依樣本迴歸為: Yi = + ei 式中ei為殘差或剩餘(residual)或估計誤差(error),表示樣本點(Xi, Yi)與樣本迴歸線上對x軸的垂直距離,即 ei = Yi–
故,i與ei的區別,不難從圖12-6看出。 由圖12-4之散佈圖中,我們必須找到最能配適於樣本點的直線,但什麼是最適合的直線呢? 結論:應使達到最小的配適直線,這就是一般所謂最小平方法(method of least squares)。
3.求母體迴歸係數的估計方法:最小平方法 圖12-7 最小平方法
為了使SSE = = 達到最小,及應用微積分的技巧,分別對b0,b1作偏微分,且令為0,即可得之標準方程組(normal equation)。 或
參數 0 與 1 的最小平方估計值分別為: 則Y對X的樣本迴歸直線方程式為 = b0 + b1Xi
另外,利用最小平方法所配置的直線迴歸,還要滿足下列條件:另外,利用最小平方法所配置的直線迴歸,還要滿足下列條件: (1) 或 = (2) min (3) = 0 (4) = 0 (5) 直線迴歸必通過點( , ) 而相關係數r的正負號乃與配適的迴歸直線之b1的正負號一致,即表示 b1 > 0,則r > 0;反之b1 < 0,則r < 0。
4. 樣本迴歸係數(coefficient of regression): b0、b1 5. 母體2的估計: • 假設Yi來自相同的母體,則2的不偏估計量為S2。 = S2 =
(2)在迴歸模型中,依自變數Xi的不同,Yi 因而分別來自不同的機率分配,則2的不偏估計量為S = MSE,估計標準誤為 。 = S = = = MSE 其SSE = = - b0 - b1 = (n -1)(S - b S ) = (n - 1)S (1 – r )
三、迴歸係數的推論 為了要建立參數 0,1的區間估計與檢定,我們必須對 i 的分配函數形式作基本假設: (1) i為一獨立的隨機誤差項且服從N(0, 2)。 (2) Yi為一獨立的隨機變數且服從N ( 0 + 1X i, 2 ), Xi為固定數。 (3) i與X i無關,即Cov(i, X i ) = 0。 Yi = 0 + 1Xi + i,i~ N( 0 , 2 ),i = 1 , 2 ,…, n 經由最小平方法,得知Yi的估計值為 = b0 + b1Xi
而且 及 =
當i~ N( 0, 2 )時,則可得 b0~ N; b1~ N 但 2未知,我們常用均方誤差(mean square error, MSE)MSE = 作為 2的估計量,故可得b0, b1的抽樣分配為服從自由度n - 2的t分配。
~t(n - 2) T = 及 T = ~t(n - 2)
0的推論 ( 1 ) 信賴區間: 0在信賴係數(1 - )100%下的信賴區間為 b0 - t/2 , b0 + t/2 ( 2 ) 假設檢定: 檢定步驟如下: 假設:H0:0 = k , H1:0k
統計量: T = 拒絕H0區域: CR = { | T | > t/2(n - 2) } 計算統計量的值與結論: 若T0CR,則拒絕H0;否則,不能拒絕H0。
2. 1的推論 (1)信賴區間: 1在信賴係數(1 - )100%下的信賴區間為 , b1 + t/2 (2)假設檢定: 檢定步驟如下: 假設: H0:1 = k , H1:1k
統計量: T = 拒絕H0區域: CR = { | T | > t/2(n-2) } 計算統計量的值與結論: 若T0CR,則拒絕H0;否則,不能拒絕H0。
四、變異數分析法 ANOVA法是藉由分割平方和與相對應的自由度來進行分析。如下圖: 圖12-8 總離差的分割
故得知 = + 式中 謂之總變異或總平方和,以SST表示。 謂之迴歸變異或迴歸平方和,以SSR表示。 謂之誤差平方和,以SSE表示。 其簡化公式:
檢定H0:1 = 0或 = 0,以F統計量檢定之,如下表 ANOVA表
在迴歸分析中,F分配與t分配檢定情況如下: 1.F分配只能檢定雙尾: H0:1 = 0 , H1:1 0若F > F(1, n - 2),則拒絕H0;否則,不能拒絕H0。 2. t分配可檢定雙尾及單尾 (1) H0:1 = 0 , H1:1 0若 | T | > t/2( n - 2 ),則拒絕H0;否則,不能拒絕H0。 (2) H0:1 0 , H1:1 > 0 若T > t(n - 2),則拒絕H0;否則,不能拒絕H0。 (3) H0:1 0 , H1:1 < 0 若T < - t(n - 2),則拒絕H0;否則,不能拒絕H0。
判定係數(coefficient of determination,R 2 ): 表示X對Y的解釋能力或解釋變異的比例。 0 R 2 = = 1- 1 R2越大時,表示X所提供的訊息對Y越有用,如下圖。 (a) (b) 圖12-9 R 2 = 1和R 2 = 0的散佈圖
五、迴歸預測 1.E(Y |X0)的信賴區間: E(Y |X0)在信賴係數(1 - )100%下的信賴區間為: 由Var()公式可知,若X0與之距離越遠,則的變異數越大,信賴區間就愈寬;在一個已知的信賴係數下,若估計標準誤增大,則信賴區間的寬度,亦隨之增大;但樣本大小n增加,可預期信賴區間的寬度將減小。
單一預測值Y0的預測區間 Y0在信賴係數(1 - )100%之下的預測區間為 t/2(n - 2)
最後,將E(Y |X0)之信賴區間及Y0的預測區間圖形如下: 圖12-10 信賴帶(confidence band)