simple correlations and simple linear regression l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
???????????????? (Simple Correlations and Simple Linear Regression ) PowerPoint Presentation
Download Presentation
???????????????? (Simple Correlations and Simple Linear Regression )

Loading in 2 Seconds...

play fullscreen
1 / 65

???????????????? (Simple Correlations and Simple Linear Regression ) - PowerPoint PPT Presentation


  • 301 Views
  • Uploaded on

十一、簡單相關與簡單直線回歸分析 (Simple Correlations and Simple Linear Regression ). 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw. 例 2 :成人年齡與血液中膽固醇的量. 例 1 :氮肥用量與水稻穀收量表 ( 公斤 ). 例 3 :年雨量與小麥產量. 氮肥用量與稻穀收量的 Scatter Plot. (mg/ml). 年齡與膽固醇量的 Scatter Plot. ( 公斤 /100). 年雨量與小麥產量的 Scatter Plot.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '???????????????? (Simple Correlations and Simple Linear Regression )' - Gabriel


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
simple correlations and simple linear regression

十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )

劉仁沛教授

國立台灣大學農藝學研究所生物統計組

國家衛生研究院生物統計與生物資訊組

jpliu@ntu.edu.tw

slide2

例2:成人年齡與血液中膽固醇的量

  • 例1:氮肥用量與水稻穀收量表(公斤)
  • 例3:年雨量與小麥產量
slide6
探討兩個變數之間的關係
  • 問題:

兩個變數間是否存在直線關係?

將直線關係以方程式表示

 資料型態( xi , yi )

  • 假定(Assumption)
    • 每對資料均為獨立
    • 常態
    • 相同變方
    • X與Y的關係為直線
slide7
簡單關係數(Simple correlation coefficient)
  • 簡單直線回歸(Simple Linear Regression)
  • 模式建立之推論(Models and Inference)
  • 回歸模式直線性檢定(Evaluation of Linearity)
  • 假定之確認(Checking the Model Assumptions)
slide8

y

μy

μy

μy

μχ

μχ

μχ

(c) ρ= 0 無相關

(a) ρ> 0 正相關

(b) ρ< 0 負相關

圖11.8b 三種不同族群相關散播圖

slide10
正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數
  • 負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數
  • 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數
slide12
樣品簡單相關係數

樣品資料:(x1,y1), …, (xn,yn)

  • 乘積和:
  • X平方和:
  • Y平方和:

,r 之範圍:1 ≦ r ≦-1

slide13

r = 1

r = -1

y

y

x

x

(a)完全正相關

(b)完全負相關

slide14

0 < r < 1

-1 < r < 0

y

y

x

x

(a)不完全正相關

(b)不完全負相關

slide15

r = 0

r = 0

y

y

x

x

(a)無相關

(b)曲線關系

slide16
簡單相關係數顯著性檢定

H0:ρ= 0 v.s. Ha:ρ≠ 0

顯著水準:α

檢定統計值:

決策方法:

若|T|>t α/2,n-2 拒絕H0

simple linear regression
簡單直線回歸(Simple Linear Regression)
  • 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述

yi=β0+βxi,i=1, …,6(=n)

y i:依變數(Dependent variable)

x i:獨立(自)變數(Independent variable)

β0:截距(Intercept) x=0時y的值

β:斜率(Slope) x變動一個單位y變動的量

但實際觀測值與直線y=β+βx有差距

原因:環境、實驗誤差、量測誤差及其他原因

yi=β0+βxi+εi,i=1, …,6(=n)

εi:誤差(Error)或殘差(Residual)

the simple linear regression model here 1 0

y

β0

0

The Simple Linear Regression Model (Here β1 > 0)

An observed value of y when x equals x0

Straight line defined by the equation

μy∣x=β0+β1x

Error term

Mean value of y when x equals x0

Slope = β1

One-unit change in x

y-intercept

x

x0= A specific value of the independent variable x

assumptions
假定(Assumptions) :
  • 獨立性(Independent)
  • 常態性(Normality)
  • 直線關係(Linearity)
  • 相同變方(homogeneity of Variance)

無數條直線可描述X與Y的關係

選擇直線的方法:

最小平方法(Least Squares Method)

德國大數學家Gauss發明

slide21

yi

e5

e4

e6

e3

e1

e2

xi

圖11.4 回歸直線與殘差圖

slide24

為當獨立之變數為xi時依

變數之最小平方推測平均值

斜率估算值

截距估算值

推測直線回歸方程式 ( Predicted Linear Regression Equations )

殘差估算值

slide25
計算推測直線回歸方程式
  • 所需統計值

例:成人年齡與血液膽固醇含量

slide26
假定
  • 獨立性
  • 常態性
  • 直線關係
  • 相關變方
    • 殘差εi為常態分布
    • 族群平均值為0
    • 族群變方為σ2
an illustration of the model assumptions

12.4=Observed value of y when x=32.5

y

The mean fuel consumption when x=32.5

The mean fuel consumption when x=45.9

9.4=Observed value of y when x=45.9

Population of y values when x=32.5

The straight line defined by the equation μy∣x =β0+ β1x (the line of means)

Population of y values when x=45.9

X

32.5

45.9

An Illustration of the Model Assumptions
slide28
σ2之估算

殘差估算值

殘差估算值平方

殘差(估算值)平方和

估算殘差值時必須先計算b0和b

SSE之自由度為n-2

slide31
斜率
  • H0:β=0 V.S. Ha:β≠0
  • 顯著水準α
  • 檢定統計值(Test statistic)
  • 決策方法 若|Tβ|>tα/2,n-2 拒絕H0
  • β之(1-α) %信賴區間
slide32
截距
  • H0:β0=0 V.S. Ha:β0≠0
  • 顯著水準α
  • 檢定統計值(Test statistic)
  • 決策方法 若|Tβ0|>tα/2,n-2 拒絕H0
  • β0之(1-α) %信賴區間
slide33
例:成人體重與膽固醇
  • 斜率H0:β=0 V.S. Ha:β≠0 α=0.05

|Tβ|=6.7419 > t0.025,10=2.228,拒絕H0

  • β之95 %信賴區間
slide34
例:成人體重與膽固醇
  • 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05

|Tβ0|=1.2756 < t0.025,10=2.228

  • β0之95 %信賴區間
slide35

Y

X

獨立變數

回歸變方分析表

不可由x解釋之變異

總變異

可由x解釋之變異

slide36

總變異=可由x所解釋變異+不可由x解釋變異

總平方和=回歸平方和+殘差平方和

SST=SSR+SSE

Syy=bSxy+(Syy-bSxy)

自由度:n-1=1+(n-2)

slide39
例:成人年齡與膽固醇
  • SST = Syy = 54001.7825
  • SSR = b × Sxy=(5.65025) ×(7558.15)

=42705.4370

  • SSE = SST - SSR

=51000.7825-42705.4370

=9395.3455

coefficient of determination
決定係數(Coefficient of Determination)
  • R2 = 決定係數

=可由獨立變數解釋之變異

總變異

= SSR / SST

0 < R2 < 1

  • 當只有一個獨立變數時

R2 = (相關係數)2=n2

slide41
例:成人體重與膽固醇

F = 420705.4370 / 939.53455

= 45.4530 , F0.05,10=4.9646 拒絕H0

F = 45.4530 = (6.7419)2=(Tβ)2

R2 = SSR / SST

=42705.4370 / 52100.7825

=0.8197

=(0.9054)2

slide44
例:成人年齡與膽固醇
  • 年齡為55歲之膽固醇分佈平均值的估算值
  • 95%信賴區間
slide45
例:成人年齡與膽固醇
  • 年齡為55歲之膽固醇的觀測值
  • 95%信賴區間
test for linearity
直線性檢定(Test for Linearity)
  • 獨立變數下的依變數必須有重複
test for linearity51
直線性檢定(Test for Linearity)

H0:符合直線假定

v.s.

Ha:不符合直線假定

  • 顯定水準:α
  • 決策方法:

FLF=MSLF / MSPE > Fα,k-2,n-k拒絕H0

slide56
變方分析表

FLF = 1.0240 < F0.05,4,17 = 2.9647 無法拒絕H0

slide57
變方分析表

F= 6228.7096 / 18.6205

= 334.5082 > F0.05,1,21 = 4.32478

迴歸係數≠0

slide59
假定之確認(Checking the Model Assumptions)
  • 同質變方(Homogeneity of Variance)
  • 殘差圖
    • 殘差v.s.獨立變數
    • 殘差v.s.預測值 殘差v.s.時間

殘差圖不能有任何規則性

蒼蠅在開會員大會無任何規則性

slide60

Residual

Residual

Residuals fan out

Residuals fannel in

(a) Increasing erroe variance

(b) Decreasing erroe variance

Residual

Residuals from a horizontal band

(c) Constant erroe variance

殘差v.s.獨立變數
normality

300

200

100

Residual

0

-100

-200

-300

-1

-2

0

2

1

Normal Score

常態性(Normality)
  • 殘差百分位值v.s.標準常態之變數百分位值

Normal Probability Plot of the Residuals

slide64
總結
  • 直線相關係數
  • 簡單直線回歸
    • 最小平方法
    • 斜率與截距估算值與檢定
    • 變方分析法
    • 預測平均值及信賴區間
    • 假定確認
    • 直線性
    • 同質變方
    • 獨立性
    • 常態性
slide65
習題
  • Page 393:1、3