slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
統計學 PowerPoint Presentation
Download Presentation
統計學

Loading in 2 Seconds...

play fullscreen
1 / 66

統計學 - PowerPoint PPT Presentation


  • 148 Views
  • Uploaded on

統計學. 郭信霖 許淑卿. 第十二章  相 關與簡單線性 迴歸分析. ■ 12-1 散佈圖與變數間的關係 ■ 12-2 相關分析與 Spearman ■ 12-3 線性迴歸模型 ■ 12-4 殘差分析與線性轉換 ■ 12-5 電腦範例 ■ 12-6 流程圖. 12-1 散佈圖與變數間的關係. 散佈圖( scatter diagram ):. 圖 12-1 散佈圖. 變數之間存在三種關係: 1. 函數關係 2. 統計獨立 3. 統計關係 研究兩變數或兩變數以上的相關關係,方法有二:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '統計學' - baird


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

統計學

郭信霖

許淑卿

slide2
第十二章  相關與簡單線性 迴歸分析

■ 12-1散佈圖與變數間的關係

■ 12-2相關分析與Spearman

■ 12-3線性迴歸模型

■ 12-4殘差分析與線性轉換

■ 12-5電腦範例

■ 12-6流程圖

slide3
12-1 散佈圖與變數間的關係
  • 散佈圖(scatter diagram):

圖12-1 散佈圖

slide4
變數之間存在三種關係:

1. 函數關係

2. 統計獨立

3. 統計關係

研究兩變數或兩變數以上的相關關係,方法有二:

相關分析(correlation analysis)

迴歸分析(regression analysis)

12 2 spearman
12-2 相關分析與Spearman相關 係數
  • 相關分析:為衡量兩隨機變數之間關係的方法。
  • 相關係數(correlation coefficient):用以衡量兩隨機變數間之直線關係程度的大小與方向的量數謂之。
slide6
一、共變異數

XY= Cov(X, Y) = E[(X - X)(Y - Y)] = E(XY) - X Y

其性質如下:

1. Cov(X, Y) = Cov(Y, X )

2. Cov(aX + b, cY + d) = acCov(X, Y),a,b,c,d為常數

3. 若X Y,則Cov(X, Y) = 0;反之,未必成立。

  • Cov(X, X) = Var(X) = 
  • Cov(b, cY) = 0
slide7
二、相關係數

1. 母體相關係數

XY= = = E

XY稱為兩隨機變數X,Y的母體相關係數,其數值範圍為

- 1 XY 1。

slide8
(1)XY= 0表示兩隨機變數X與Y沒有直線關係。

(2)XY> 0表示兩隨機變數X與Y間有正向的直線關係。

(3)XY= 1表示兩隨機變數X與Y完全正相關、斜率為正的直線關係。

(4)XY< 0表示兩隨機變數X與Y間有負向的直線關係。

(5)XY= - 1表示兩隨機變數X與Y完全負相關,斜率為負的直線關係。

slide9

(a)

(b)

(c)

(d)

(e)

(f)

圖12-2 母體相關係數的散佈圖

slide10
2. 樣本相關係數

rXY= =

= = =

其中xi= Xi- ,yi= Yi-

SXY= 為樣本共變異數

S = ,S =

slide11
樣本相關係數rXY,又稱為Pearson積差相關係數(Pearson product-moment correlation coefficient)。

(1) r = 0時,表示X與Y為零相關,沒有直線關係。

(2) | r |  0.3,表示X與Y為低度相關。

(3) 0.3 < | r |  0.7時,表示X與Y為中度相關。

(4) 0.7 < | r | < 1時,表示X與Y為高度相關。

(5) | r | = 1時,表示X與Y之各相關點完全落在一條直線 上,為完全直線關係(指完全正相關或完全負相 關)。

slide12
3. 相關係數之統計推論

判斷兩個變數之間是否存在有線性關係的方法有三:

一為利用相關係數的檢定。

另外兩種方法為利用線性迴歸分析中迴歸係數的推論。

討論兩個變數間是否有顯著相關的檢定:

(1)當XY= 0時,rXY的抽樣分配與t分配、F分配有關,即

T = = r~ t(n - 2)

或F = T 2 = ~ F(1, n - 2)

2

slide13
檢定兩變數間是否有顯著相關( XY= 0 )的步驟:

(1)假設: H0:XY = 0 , H1:XY  0

(2)統計量:

T = 或 F =

(3)拒絕H0區域:CR = { | T | > t/2( n - 2 ) }或CR = { F > F( 1, n - 2 ) }

(4)計算統計量的值與結論:

若T0CR或F0CR,則拒絕H0;否則,不能拒絕H0。

假若單尾假設檢定,只能利用t分配檢定,不可用F分配檢定。

2

slide14
(2)當XY 0時,rXY的抽樣分配能利用Fisher轉換統計量

Zr之抽樣分配為近似常態分配來處理。

Zr= ln ~N ln ,

slide15
檢定XY = 0 0之步驟:

(1)假設:H0:XY = 0 0,H1:0

(2)統計量:

Z = ~N( 0, 1 )

(3)拒絕H0區域:CR = { | Z | > z/2 }

(4)計算統計量的值與結論 若Z0CR,則拒絕H0;否則,不能拒絕H0。

spearman
三、Spearman等級相關係數

Spearman等級相關係數(Spearman rank correlation coefficients):是種不受極端值的影響且母體分配為未知或為屬性資料,而以『等級』為基礎,測量兩變數間相關程度及方向的量數,以rs表示。

計算rs的步驟:

1.先將成對觀測值(Xi, Yi)分別由小至大順序排列,並給予適 當等級。若有相同觀測值,則以應得等級之平均數代替。

2.計算Xi與Yi兩個配對等級的差異di。

3.代入公式rs = 1 - ,n為成對資料的個數。

slide17
假設檢定的步驟如下:

1. 假設: H0:s = 0,H1:s 0 (或H1:s> 0,有等級正的關聯)

  • 統計量: rs = 1 –

3. 拒絕H0區域: CR = { | rs| > rs* }

4. 計算統計量的值與結論:若rs0CR,則拒絕H0;否則,不拒絕H0。

slide18
在實用上,當n  10時檢定統計量可變為
  • F = ~ F( 1, n-2 )

則拒絕域為CR = { F > F( 1, n - 2 ) }

  • T = = ~ t( n - 2 )

則雙尾檢定之拒絕域為CR = { |T | > t/2( n - 2 ) }右尾定之拒絕域為CR = { T > t( n - 2 ) }左尾定之拒絕域為CR = { T < - t( n - 2 ) }

slide21
12-3 線性迴歸模型

一、迴歸的意義

英國人生物統計學家Galton(1822~1911),研究遺傳學:

比較父親與大兒子身高的關係,結果發現如下結論

( 1 ) 身材較高的父親比較矮的父親,傾向於有較高的兒子;

( 2 ) 較平均身高高的父親,他的兒子會比父親矮一點;

( 3 ) 比平均身高矮的父親,他的兒子會比父親高一點。

slide22
Galton把這種平均身高的趨勢,謂之「迴歸」。

1.線性迴歸方程式

迴歸分析依自變數的多寡,分為簡單迴歸分析與複迴歸分 析(multiple regression analysis)兩種。

(1)簡單迴歸分析(simple regression analysis)

(2)複迴歸分析(multiple regression analysis

slide23
2. 散佈圖之功用

散佈圖,如圖12-1。由圖中顯示X與Y兩變數間,具有相當程度的線性關係存在,謂之線性迴歸,其方程式謂之迴歸直線方程式,如圖12-4。

圖12-4 散佈圖與樣本迴歸直線

slide24
二、簡單線性迴歸模型

簡單線性迴歸模型如下:

Yi = 0 + 1Xi + i,i = 1, 2, …, n

其中Yi:第i次試驗中因應數的值(是個隨機變數)

0,1:母體的迴歸係數(regression coefficients)

Xi:第i次試驗中自變數的值(通常為已知常數)

i:隨機誤差項(random error term),為獨立的隨機變數

且E(i) = 0,Var(i) = 2,Cov(i, j ) = 0,i j,i,j = 1, 2, …, n

slide25

簡單線性迴歸模型之圖形

圖12-5 簡單母體迴歸直線模型

slide26
2.母體與樣本迴歸線、母體與樣本迴歸係數

母體迴歸直線為: Y|X = E(Y |X) = 0 + 1X

樣本迴歸直線為: = b0 + b1X

圖12-6 母體與樣本之迴歸直線;隨機誤差i與殘差ei的比較

slide27
從圖12-6中,很容易看出對任何一個指定值Xi,樣本中每一觀測點(Xi, Yi),都有下列關係:

Yi = + i, i = 1 , 2 , ……, n

依樣本迴歸為:

Yi = + ei

式中ei為殘差或剩餘(residual)或估計誤差(error),表示樣本點(Xi, Yi)與樣本迴歸線上對x軸的垂直距離,即

ei = Yi–

slide28
故,i與ei的區別,不難從圖12-6看出。

由圖12-4之散佈圖中,我們必須找到最能配適於樣本點的直線,但什麼是最適合的直線呢?

結論:應使達到最小的配適直線,這就是一般所謂最小平方法(method of least squares)。

slide30
為了使SSE = = 達到最小,及應用微積分的技巧,分別對b0,b1作偏微分,且令為0,即可得之標準方程組(normal equation)。

slide31

參數 0 與 1 的最小平方估計值分別為:

則Y對X的樣本迴歸直線方程式為

= b0 + b1Xi

slide32
另外,利用最小平方法所配置的直線迴歸,還要滿足下列條件:另外,利用最小平方法所配置的直線迴歸,還要滿足下列條件:

(1) 或 =

(2) min (3) = 0

(4) = 0 (5) 直線迴歸必通過點( , )

而相關係數r的正負號乃與配適的迴歸直線之b1的正負號一致,即表示

b1 > 0,則r > 0;反之b1 < 0,則r < 0。

slide33
4. 樣本迴歸係數(coefficient of regression): b0、b1

5. 母體2的估計:

  • 假設Yi來自相同的母體,則2的不偏估計量為S2。

= S2 =

slide34
(2)在迴歸模型中,依自變數Xi的不同,Yi 因而分別來自不同的機率分配,則2的不偏估計量為S = MSE,估計標準誤為 。

= S = = = MSE

其SSE = = - b0 - b1

= (n -1)(S - b S ) = (n - 1)S (1 – r )

slide35
三、迴歸係數的推論

為了要建立參數 0,1的區間估計與檢定,我們必須對 i 的分配函數形式作基本假設:

(1) i為一獨立的隨機誤差項且服從N(0, 2)。

(2) Yi為一獨立的隨機變數且服從N ( 0 + 1X i, 2 ), Xi為固定數。

(3) i與X i無關,即Cov(i, X i ) = 0。

Yi = 0 + 1Xi + i,i~ N( 0 , 2 ),i = 1 , 2 ,…, n

經由最小平方法,得知Yi的估計值為

= b0 + b1Xi

slide36

而且

=

slide37
當i~ N( 0, 2 )時,則可得

b0~ N; b1~ N

但 2未知,我們常用均方誤差(mean square error,

MSE)MSE = 作為 2的估計量,故可得b0,

b1的抽樣分配為服從自由度n - 2的t分配。

slide38

~t(n - 2)

T =

T =

~t(n - 2)

slide39
0的推論

( 1 ) 信賴區間:

0在信賴係數(1 - )100%下的信賴區間為

b0 - t/2 , b0 + t/2

( 2 ) 假設檢定:

檢定步驟如下:

假設:H0:0 = k , H1:0k

slide40
統計量:

T =

拒絕H0區域:

CR = { | T | > t/2(n - 2) }

計算統計量的值與結論:

若T0CR,則拒絕H0;否則,不能拒絕H0。

slide41
2. 1的推論

(1)信賴區間:

1在信賴係數(1 - )100%下的信賴區間為

, b1 + t/2

(2)假設檢定:

檢定步驟如下:

假設: H0:1 = k , H1:1k

slide42
統計量:

T =

拒絕H0區域:

CR = { | T | > t/2(n-2) }

計算統計量的值與結論:

若T0CR,則拒絕H0;否則,不能拒絕H0。

slide43

四、變異數分析法

ANOVA法是藉由分割平方和與相對應的自由度來進行分析。如下圖:

圖12-8 總離差的分割

slide44
故得知 = +

式中 謂之總變異或總平方和,以SST表示。

謂之迴歸變異或迴歸平方和,以SSR表示。

謂之誤差平方和,以SSE表示。

其簡化公式:

slide45

檢定H0:1 = 0或

= 0,以F統計量檢定之,如下表

ANOVA表

slide46
在迴歸分析中,F分配與t分配檢定情況如下:

1.F分配只能檢定雙尾:

H0:1 = 0 , H1:1 0若F > F(1, n - 2),則拒絕H0;否則,不能拒絕H0。

2. t分配可檢定雙尾及單尾

(1) H0:1 = 0 , H1:1 0若 | T | > t/2( n - 2 ),則拒絕H0;否則,不能拒絕H0。

(2) H0:1 0 , H1:1 > 0

若T > t(n - 2),則拒絕H0;否則,不能拒絕H0。

(3) H0:1 0 , H1:1 < 0

若T < - t(n - 2),則拒絕H0;否則,不能拒絕H0。

slide47
判定係數(coefficient of determination,R 2 ):

表示X對Y的解釋能力或解釋變異的比例。

0 R 2 = = 1-  1

R2越大時,表示X所提供的訊息對Y越有用,如下圖。

(a)

(b)

圖12-9 R 2 = 1和R 2 = 0的散佈圖

slide48
五、迴歸預測

1.E(Y |X0)的信賴區間:

E(Y |X0)在信賴係數(1 - )100%下的信賴區間為:

由Var()公式可知,若X0與之距離越遠,則的變異數越大,信賴區間就愈寬;在一個已知的信賴係數下,若估計標準誤增大,則信賴區間的寬度,亦隨之增大;但樣本大小n增加,可預期信賴區間的寬度將減小。

slide49
單一預測值Y0的預測區間

Y0在信賴係數(1 - )100%之下的預測區間為

t/2(n - 2)

slide50

最後,將E(Y |X0)之信賴區間及Y0的預測區間圖形如下:

圖12-10 信賴帶(confidence band)

slide51
六、多元線性迴歸

在多數應用迴歸分析的研究問題中,常需一個以上的獨立變數,當此模型為線性時,則稱為多元線性迴歸模型(multiple regression model)。

若有k個獨立變數X1 , X2 , …Xk,則n對樣本資料為(X11 , X21 , X31 , …, Xk1 , Y1), (X12 , X22 , X32 , …, Xk2 , Y2), …, (X1n, X2n, X3n, …, Xkn, Yn),而線性迴歸模型如下;

Y = 0 + 1X1 + 2X2 + … + k Xk + 

且 E() = 0

Var() = 2

i間互為獨立,i = 1, 2, 3, …, n

slide52
應用最小平方法,使

Min = min 分別對0 , 1 , …, k偏微分,並令其等於0,即可得到其估計值b0,b1,b2,b3,…,bk。

當k = 2時,即只有兩個自變數時,其標準方程式為

聯立解,即可得到0,1,2的解,令其為b0,b1,b2,則樣本迴歸方程式就為

= b0 + b1X1 + b2X2

slide53
12-4 殘差分析與線性轉換

當迴歸模型建立完成後,是否該組資料符合迴歸模型的基本假設。

Yi = 0 + 1Xi + i,i ~ N( 0, 2 ),i = 1, 2, …, n

通常檢查的項目包括:

(1) i是否為常態分配。

(2) Var(i) = 2。

(3) i是否獨立。

(4) X與Y的線性關係Y = 0 + 1X是否正確。

slide54
一、殘差分析

殘差分析就是藉著樣本資料配適後的殘差ei = Yi-,來探討所建構的迴歸模型是否符合迴歸模型的基本假設。

下列幾種以殘差來檢驗模型的方法大都是用圖形表示的,當i~N(0, 2),i = 1, 2, …, n且i  j, i j的假設不成立時,大致可由殘差圖形來檢視。

(1) 殘差全繪圖(overall plot)。

(2) 殘差時間序列圖(time sequence plot)。

(3) 殘差對 圖(plot against )。

我們將以簡單的例子,來說明上述圖形之繪製及其分析結論。

slide55

1.殘差全繪圖

將殘差值ei = Yi -

描繪在直線座標上。

圖12-11 殘差全繪圖

slide56

2. 殘差時間序列圖:

此圖形可檢視殘差項之間是否為獨立。

(1) 標準圖形:

圖12-12 符合假設的殘差分析圖

slide58

(3) 曲線形狀:表示有曲線趨勢

圖12-14 直線模型不當之殘差分析圖

slide59

(4) 擴散(或縮減)形狀:表示Var()不為固定常數(4) 擴散(或縮減)形狀:表示Var()不為固定常數

圖12-15 變異數不為常數的殘差分析圖

slide60
3. 殘差對Yi圖:

將殘差值ei及對應之預測值,描繪在平面座標上,其ei對圖如圖12 - 12至圖12 - 15四種圖形。

4. 誤差項不具有常態性的診斷:

診斷方法可利用:

(1) 殘差分配圖:箱形圖、直方圖、點圖及莖葉圖。

slide61
(2) 次數的比較若迴歸分析中,觀測值的數目夠大,可以檢查:(2) 次數的比較若迴歸分析中,觀測值的數目夠大,可以檢查:

是否有68%的標準化殘差ei/ 會落在-1與1之間。

是否有90%的標準化殘差ei/ 會落在-1.645與1.645之間。

是否有95%的標準化殘差ei/ 會落在-1.96與1.96之間。

若觀測值的數目不夠多,可以改用對應的t值作比較:

slide64
三、多項式迴歸模型

圖12-19

一元r次多項式迴歸模型為

Y = 0 + 1X + 2X2 + … + r X r + 