統計應用軟體 Statistical Computations and Analysis

統計應用軟體Statistical Computations and Analysis Lecture 13: Experimental Designs (IV); Correlation and Linear Regression

常見試驗設計 • 單因子試驗設計: • 完全隨機設計 (CRD) • 隨機完全區集設計 (RCBD) • 拉丁方設計 (LSD) • 均衡不完全區集設計 (BIBD) • 複因子試驗設計: • 兩因子相交設計 (two-factor crossed design) • 巢式設計 (nested design) • 裂區設計 (split-plot design)

Crossed and Nested Design • Crossed and nested design: • crossed design:不同 level 之 A 因子下, B 因子的 level 維持相同。 • nested design:不同 level 之 A 因子下, B 因子的 level 不同。例: A factor (2 levels), B factor (2 levels): • A cross B: A1B1, A1B2, A2B1, A2B2 • B nested in A: A1B1, A1B2, A2B3, A2B4

Factorial Design • 無論是 crossed 或 nested design, 均可與單因子的試驗設計法結合: crossed + CRD nested + CRD crossed + RCBD nested + RCBD …

裂區設計 • Motivation: crossed + RCBD revisit 例: 水稻三品種在生長期間進行浸水深度試驗: Factor A:水稻品種 (V1, V2, V3) Factor B:浸水深度 (D1, D2) 每處理組合重複 3 次, 以小區為試驗單位: • Problem: 每小區水稻品種之種植容易進行, 但灌水深度設置不易控制! 區集

裂區設計 大區區集小區區集

裂區設計 • 若有 A (a levels) 與 B (b levels) 兩因子: Step1:將試驗材料, 劃分為大區 (或稱主區), 每個大區再分裂為幾個小區。 Step2:須同時試驗的處理隨機安排與大區中, 隨機的方式可為 CRD、RCBD或 LSD。 Step3:將大區視為 block, 依RCBD原則將另一處理隨機安排與小區中。

裂區設計 • 特色: 小區因子有較高的試驗可靠度! 1. 小區因子的重複數較多, 大區因子的重複較少 (Di: 3 重複, Vj: 6 重複) 2. 大區因子受環境因素影響較大區集

裂區設計 • 裂區設計適用時機: • 為試驗方便, 需將試驗單位歸為較大的大區同時受試 • 參試兩因子其中之一比較重要; 較重要因子令其為小區因子, 次重要者為大區因子 • 在試驗進行半途加入另一個參試因子 • 裂區設計缺點: • 大區因子試驗可靠性比 crossed design 差 • 缺值估算複雜

裂區設計變方分析表

R: 裂區設計 Step1:輸入各觀測數值與相對應的處理 Step2:利用 ‘aov’計算變方分析結果, 並藉由 ‘summary’製作變方分析表。 Note: • lm + anova • aov + summary

R: 裂區設計 • ‘aov’ model 寫法: > out = aov(原始model + Error(strata)) 原始model:假設試驗為 crossed design 的 model 寫法。 Strata:變方分析表第一層變數名稱, 以冒號分隔

R: 裂區設計 • CRD: > out = aov(y ~ A*B + Error(A)) > summary(out) • RCBD: > out = aov(y ~ block + A*B + Error(block:A)) > summary(out) • LSD: > out = aov(y ~ row + col + A*B + Error(row:col:A)) > summary(out)

R: 裂區設計 例: (RCBD + 裂區設計) 馬鈴薯三品種(V1, V2, V3) 以兩種不同耕犁深度(D1,D2)組合進行產量比較測驗:

R: 裂區設計

> interaction.plot(v,d,x)

Correlation and Linear Regression

變數間的關係 • 目前所述各種統計方法都是研究事物間的差異性 (difference); 相關係數與簡單直線迴歸則是探討事物間或變數間的相關性 (relationship) 。

例1：氮肥用量與水稻穀收量表(公斤) 例2：成人年齡與血液中膽固醇的量例3：年雨量與小麥產量

Scatter Plot • 兩連續變數的關係, 可藉由散佈圖(scatter plot) 觀察: > plot(x,y) 例1: 氮肥用量與水稻穀收量

Scatter Plot 例2: 成人年齡與膽固醇例3: 年雨量與小麥產量

探討兩個變數間的線性關係 • 相關係數與簡單直線迴歸: 探討兩個變數間是否存在直線關係! • 相關係數 (correlation coefficient): 利用介於 [-1,1] 的數值表示兩族群的線性相關程度 • 簡單直線迴歸 (simple linear regression): 以一直線模式 (linear model) 描述兩變數的關係

族群相關係數 • 成對變數 (Xi , Yi) ~ N2(μ, Σ)

族群相關係數 μy μy μy μχ μχ μχ (c) ρ= 0 無相關 (a) ρ> 0 正相關 (b) ρ< 0 負相關

樣本相關係數 • 由樣本估計兩變數的相關係數: 樣本資料：(x1,y1), …, (xn,yn)

r = 1 r = -1 y y x x 樣本相關係數 (a)完全正相關 (b)完全負相關

0 < r < 1 -1 < r < 0 y y x x 樣本相關係數 (a)不完全正相關 (b)不完全負相關

樣本相關係數 r = 0 r = 0 y y x x (a)無相關 (b)曲線關系

相關係數顯著性檢定 H0：ρ= 0 v.s. Ha：ρ≠ 0 • 統計值： • If H0 is true, T ~ t(n-2), p-value = 2*(1 – pt(abs(T), n-2)) • 若 p-value < 0.05, reject H0

R: Correlation Coefficient • 計算樣本相關係數: cor(x,y) • 相關係數顯著性檢定: cor.test(x, y)

R: Correlation Coefficient 例1: 氮肥用量與水稻穀收量

簡單直線迴歸 • 簡單直線迴歸 (simple linear regression): 以一直線模式描述兩變數的關係 y i：依變數(Dependent variable) x i：獨立(自)變數(Independent variable) β0：截距(Intercept) x = 0時 y的值 β1：斜率(Slope) x變動一個單位 y變動的量 εi：誤差(Error)或殘差(Residual)

簡單直線迴歸 y An observed value of y when x equals x0 Error term μy∣x=β0+β1x Mean value of y when x equals x0 Slope = β1 β0 One-unit change in x y-intercept x 0 x0= A specific value of the independent variable x

簡單直線迴歸 • 欲藉由直線迴歸式推算不同 x值所得 y值為何; 但在直線迴歸式中, β0與β1為未知母數, 可利用最小平方法由樣本估算之:

迴歸變方分析表 Y 不可由x解釋之變異總變異可由x解釋之變異 X 獨立變數

迴歸變方分析表 迴歸變方分析表 • 總變異= 可由迴歸線解釋的變異 + 不可由迴歸線解釋的變異總平方和(SST) = 回歸平方和(SSR) + 殘差平方和(SSE) 自由度：n – 1 = 1 + (n – 2)

迴歸變方分析 • 若 F 值之 p-value < 0.05, 表示兩變數具直線相關性 (β1 ≠ 0)! Note:

R:簡單直線迴歸 • 迴歸分析: > out = lm(y~x) • b0與 b1計算結果: > summary(out) • 變方分析表: > anova(out)

R:簡單直線迴歸 例3: 年雨量與小麥產量

R:簡單直線迴歸

R:簡單直線迴歸 Note: F = t2 (15.014 ≒ 3.8752)

決定係數 R2 • 決定係數是表示兩變數具直線相關性的另一指標: • 0 < R2 < 1 • 當 R2接近 1 時, 表示 y 的訊息可由此迴歸式決定的比例越高。

R:決定係數 R2

R:簡單直線迴歸 • 在散布圖上畫出迴歸線: > plot(x,y) > out = lm(y~x) > abline(out)

y b0 + b1x0 x0 x 0 簡單直線迴歸預測 • 預測 x = x0時, y 值為何? b0 + b1x

簡單直線迴歸預測

R:簡單直線迴歸預測 > out = lm(y3~x3) > new.data = data.frame(x3=c(21,25)) > predict(out, new.data, interval = “prediction”)

R:簡單直線迴歸預測 • 利用簡單直線迴歸預測的限制: 推測範圍: min(x) ≦ x0 ≦ max(x) 13.15+11.38x

基本假設檢定 • 簡單直線迴歸之基本假設: Check: 1. Normality 2. Independence 3. Homogeneity of Variance

基本假設檢定 • R can help! > out = lm(y~x) > plot(out) 輸出 3 個檢驗圖, 利用鍵盤上的 Enter 鍵換頁或按一下滑鼠

統計應用軟體 Statistical Computations and Analysis

統計應用軟體 Statistical Computations and Analysis

Presentation Transcript

the statistical analysis of data

A Statistical Analysis and Synoptic Climatology of U.S. Heat Waves

E4004 Survey Computations A

Stratified Analysis of A Binary Endpoint and “Beyond”

Analysis of Nominal and Ordinal Data

Clinical Statistics for Non-Statisticians – Part II

PCB 3043L - General Ecology

Job Analysis

Statistical Inference and Regression Analysis: GB.3302.30

Probe analysis and data preprocessing

Some Topics in Statistical Data Analysis

Statistical Process Control

Statistical Inference and Regression Analysis: GB.3302.30

Analysis of Multiple Experiments TIGR Multiple Experiment Viewer (MeV)

Computing Media and Languages for Space-Oriented Computations

Statistical Relational Learning

What statistical analysis should I use?

A Network Traffic Analysis System Based on the Statistical Process Control Mechanism

STATISTICAL TOOLS NEEDED IN ANALYZING TEST RESULTS Prof. Yonardo Agustin Gabuyo

Statistical Studies: Statistical Investigations

Systematic Reviews: Methods and Procedures

Decennial Census A Base for Community Analysis