1 / 65

十一、簡單相關與簡單直線回歸分析 (Simple Correlations and Simple Linear Regression )

十一、簡單相關與簡單直線回歸分析 (Simple Correlations and Simple Linear Regression ). 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw. 例 2 :成人年齡與血液中膽固醇的量. 例 1 :氮肥用量與水稻穀收量表 ( 公斤 ). 例 3 :年雨量與小麥產量. 氮肥用量與稻穀收量的 Scatter Plot. (mg/ml). 年齡與膽固醇量的 Scatter Plot. ( 公斤 /100). 年雨量與小麥產量的 Scatter Plot.

Gabriel
Download Presentation

十一、簡單相關與簡單直線回歸分析 (Simple Correlations and Simple Linear Regression )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression ) 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw

  2. 例2:成人年齡與血液中膽固醇的量 • 例1:氮肥用量與水稻穀收量表(公斤) • 例3:年雨量與小麥產量

  3. 氮肥用量與稻穀收量的Scatter Plot

  4. (mg/ml) 年齡與膽固醇量的Scatter Plot

  5. (公斤/100) 年雨量與小麥產量的Scatter Plot

  6. 探討兩個變數之間的關係 • 問題: 兩個變數間是否存在直線關係? 將直線關係以方程式表示  資料型態( xi , yi ) • 假定(Assumption) • 每對資料均為獨立 • 常態 • 相同變方 • X與Y的關係為直線

  7. 簡單關係數(Simple correlation coefficient) • 簡單直線回歸(Simple Linear Regression) • 模式建立之推論(Models and Inference) • 回歸模式直線性檢定(Evaluation of Linearity) • 假定之確認(Checking the Model Assumptions)

  8. y μy μy μy μχ μχ μχ (c) ρ= 0 無相關 (a) ρ> 0 正相關 (b) ρ< 0 負相關 圖11.8b 三種不同族群相關散播圖

  9. 正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數 • 負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數 • 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數

  10. 族群簡單相關係數: (x1,y1) …(xN,yN) ,-1<ρ<1

  11. 樣品簡單相關係數 樣品資料:(x1,y1), …, (xn,yn) • 乘積和: • X平方和: • Y平方和: ,r 之範圍:1 ≦ r ≦-1

  12. r = 1 r = -1 y y x x (a)完全正相關 (b)完全負相關

  13. 0 < r < 1 -1 < r < 0 y y x x (a)不完全正相關 (b)不完全負相關

  14. r = 0 r = 0 y y x x (a)無相關 (b)曲線關系

  15. 簡單相關係數顯著性檢定 H0:ρ= 0 v.s. Ha:ρ≠ 0 顯著水準:α 檢定統計值: 決策方法: 若|T|>t α/2,n-2 拒絕H0

  16. 例:雨量與小麥產量 n=8, Σxi=200.5, Σyi=296.5

  17. 簡單直線回歸(Simple Linear Regression) • 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述 yi=β0+βxi,i=1, …,6(=n) y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x=0時y的值 β:斜率(Slope) x變動一個單位y變動的量 但實際觀測值與直線y=β+βx有差距 原因:環境、實驗誤差、量測誤差及其他原因 yi=β0+βxi+εi,i=1, …,6(=n) εi:誤差(Error)或殘差(Residual)

  18. y β0 0 The Simple Linear Regression Model (Here β1 > 0) An observed value of y when x equals x0 Straight line defined by the equation μy∣x=β0+β1x Error term Mean value of y when x equals x0 Slope = β1 One-unit change in x y-intercept x x0= A specific value of the independent variable x

  19. 假定(Assumptions) : • 獨立性(Independent) • 常態性(Normality) • 直線關係(Linearity) • 相同變方(homogeneity of Variance) 無數條直線可描述X與Y的關係 選擇直線的方法: 最小平方法(Least Squares Method) 德國大數學家Gauss發明

  20. yi e5 e4 e6 e3 e1 e2 xi 圖11.4 回歸直線與殘差圖

  21. 最小平方法

  22. 正常方程式(Normal Equations)

  23. 為當獨立之變數為xi時依 變數之最小平方推測平均值 斜率估算值 截距估算值 推測直線回歸方程式 ( Predicted Linear Regression Equations ) 殘差估算值

  24. 計算推測直線回歸方程式 • 所需統計值 例:成人年齡與血液膽固醇含量

  25. 假定 • 獨立性 • 常態性 • 直線關係 • 相關變方 • 殘差εi為常態分布 • 族群平均值為0 • 族群變方為σ2

  26. 12.4=Observed value of y when x=32.5 y The mean fuel consumption when x=32.5 The mean fuel consumption when x=45.9 9.4=Observed value of y when x=45.9 Population of y values when x=32.5 The straight line defined by the equation μy∣x =β0+ β1x (the line of means) Population of y values when x=45.9 X 32.5 45.9 An Illustration of the Model Assumptions

  27. σ2之估算 殘差估算值 殘差估算值平方 殘差(估算值)平方和 估算殘差值時必須先計算b0和b SSE之自由度為n-2

  28. 斜率與截距變方之估計

  29. 例 成人年齡與膽固醇

  30. 斜率 • H0:β=0 V.S. Ha:β≠0 • 顯著水準α • 檢定統計值(Test statistic) • 決策方法 若|Tβ|>tα/2,n-2 拒絕H0 • β之(1-α) %信賴區間

  31. 截距 • H0:β0=0 V.S. Ha:β0≠0 • 顯著水準α • 檢定統計值(Test statistic) • 決策方法 若|Tβ0|>tα/2,n-2 拒絕H0 • β0之(1-α) %信賴區間

  32. 例:成人體重與膽固醇 • 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |Tβ|=6.7419 > t0.025,10=2.228,拒絕H0 • β之95 %信賴區間

  33. 例:成人體重與膽固醇 • 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |Tβ0|=1.2756 < t0.025,10=2.228 • β0之95 %信賴區間

  34. Y X 獨立變數 回歸變方分析表 不可由x解釋之變異 總變異 可由x解釋之變異

  35. 總變異=可由x所解釋變異+不可由x解釋變異 總平方和=回歸平方和+殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度:n-1=1+(n-2)

  36. 迴歸變方平方和

  37. 例:成人年齡與膽固醇 • SST = Syy = 54001.7825 • SSR = b × Sxy=(5.65025) ×(7558.15) =42705.4370 • SSE = SST - SSR =51000.7825-42705.4370 =9395.3455

  38. 決定係數(Coefficient of Determination) • R2 = 決定係數 =可由獨立變數解釋之變異 總變異 = SSR / SST 0 < R2 < 1 • 當只有一個獨立變數時 R2 = (相關係數)2=n2

  39. 例:成人體重與膽固醇 F = 420705.4370 / 939.53455 = 45.4530 , F0.05,10=4.9646 拒絕H0 F = 45.4530 = (6.7419)2=(Tβ)2 R2 = SSR / SST =42705.4370 / 52100.7825 =0.8197 =(0.9054)2

  40. 例:成人年齡與膽固醇 • 年齡為55歲之膽固醇分佈平均值的估算值 • 95%信賴區間

  41. 例:成人年齡與膽固醇 • 年齡為55歲之膽固醇的觀測值 • 95%信賴區間

  42. 獨立變數x

  43. 直線性檢定(Test for Linearity) • 獨立變數下的依變數必須有重複

  44. 直線性檢定(Test for Linearily)

  45. 變方分析表

More Related