510 likes | 1.23k Views
統計應用軟體 Statistical Computations and Analysis. Lecture 8: Variable Transformation; Introduction of Experimental Designs. Variable Transformation 變數轉換. 變方分析 (ANOVA) 之基本假設. 1. 各樣本來自常態分配 (normality) 2. 各樣本之族群互相獨立 (independence) 3. 各組樣本之族群變方相同 (homogeneity-of-variance)
E N D
統計應用軟體Statistical Computations and Analysis Lecture 8: Variable Transformation; Introduction of Experimental Designs
變方分析 (ANOVA) 之基本假設 1. 各樣本來自常態分配 (normality) 2. 各樣本之族群互相獨立 (independence) 3. 各組樣本之族群變方相同(homogeneity-of-variance) Note: 族群變方不相等時: (1) 變數轉換 (variable transformation) (2) 無母數分析 (nonparametric methods)
變方分析 例: 研究 6 海岸線各 25 個區域內觀察到的螃蟹隻數: Step 1. Test H0: σ12 = …=σk2 Step 2. If equal variance ANOVA
Test Equal Variance • Test H0: σ12 = …=σk2 Bartlett Test statistic = 153.27, p-value < 2.2e-16 Reject H0!
變數轉換 • 目標:所有處理經轉換後的觀測值具有類似之變異程度; 即不同 對應到類似的 Si2。 轉換後
Box-Cox Transformation • Box 與 Cox 研究各處理變方與均值的比例關係, 發現以下轉換方式可穩定變方! Step1:決定變方與均值的比例參數:λ log(Si2) = c + βlog( ); λ= 1 –β Step2:將原觀測值 X 轉換為 Y = (Xλ– 1)/λ, if λ≠0 = log(x), if λ= 0
R: Box-Cox Transformation • 利用R尋找λ > library(MASS) > boxcox(x~trt) Best λ
R: Box-Cox Transformation • λ為圖中獲得 log-Likelihood 最大值的數字 • 為了方便解釋, 通常會選擇最佳λ附近的以0.5 為單位 (開根號) 的數字進行 Box-Cox Transformation
R: Box-Cox Transformation 例: 螃蟹 > x = c(0, 0, 22, …) > trt = gl(6,25) > library(MASS) > boxcox(x+0.01 ~ trt) 選擇λ= 0 log > y = log(x+0.01) > bartlett.test(y,trt) p.value = 0.745 利用Y 進行 ANOVA!
General Transformations • 進行Box-Cox transformation, x 內所有觀測值必需大於 0 (為取log之故); 若觀測值小於或等於 0, 可自行繪製樣本均值與標準差之圖表進行判斷:
History of Experimental Designs • 英國農藝學家 Young 於 1763 年繼承父親的農場, 決定從事試驗工作來提高作物產量。根據幾年的研究經驗, 他認為: • 作物生長受土壤肥力、病蟲害、氣候條件等其它因素影響, 因此需將欲比較的栽培法或作物品種同時同地放在一起試驗, 才能分出其優劣 • 一次試驗結果不足以採信, 需多次重複試驗 • 丹麥人 Nielson (1880) 從事牧草品種收量比較試驗, 在田間依不同順序排列牧草品種, 發現如此的試驗結果較為合理。
History of Experimental Designs • Fisher (1920s): 規畫各種試驗設計法, 強調試驗時隨機排列與環境控制的重要性, 以有效減少誤差。 • Yates (1933) 解決處理數很多時, 有效控制環境變異的問題。 …
Experimental Designs • 何謂試驗設計? 試驗設計是在試驗前預先決定試驗的步驟, 以期有效控制實驗時可能發生的偏差, 未來得以收集到最精確的資料!
資料收集 流程計畫 資料收集 資料整理 與分析 對研究目的 進行推論 Part II 推論統計 Part II 推論統計 課程內容 Part III 試驗設計 Part I 敘述統計 抽樣方法
試驗設計實例 例: 欲比較三種飼料對天竺鼠體重之影響, 將12隻天竺鼠隨機指派食用三種飼料(4隻飼料A; 4隻飼料B; 4隻飼料C),兩星期後體重增加之觀測值(g): 試驗前Q1:如何決定各處理的樣本大小? Q2:如何決定1~12隻天竺鼠吃何種飼料? …
試驗設計 • 試驗設計遵守下列原則以控制實驗偏差: • 重複 (replication) • 隨機排列 (random arrangment) • 區集 (block)
單因子 vs 複因子試驗設計 • 單因子試驗設計在探討不同 levels 之單一因子 (處理)對於試驗單位造成效應為何。 • 複因子試驗設計同時探討兩個以上因子之主效應與其交互作用: • 各因子之主效應 (main effect): 兩因子各自照成的效應。 • 因子間的交感效應 (interaction): A 因子不同 level 的均值差異是否隨 B 因子 level 改變?
常見試驗設計 • 單因子試驗設計: • 完全隨機設計 (CRD) • 隨機完全區集設計 (RCBD) • 拉丁方設計 (LSD) • 均衡不完全區集設計 (BIBD) • 複因子試驗設計: • 兩因子試驗設計 (two-factor factorial design) • 摺疊設計 (nested design) • 裂區設計 (split-plot design)
課程內容 • 本課程內容: • 包含: 1. 了解各設計之應用時機 2. 決定各處理的樣本大小 3. 如何分配試驗單位至不同處理 4. 如何寫出不同設計之變方分析表 • 不包含: 各式理論推導
完全隨機設計 • 完全隨機設計 (Completely Randomized Design, CRD): 將試驗單位隨機分配至各處理。 例: 將12隻 (sample size?) 天竺鼠隨機指派食用ABC三種飼料:
完全隨機設計 例: 將12隻天竺鼠隨機指派食用ABC三種飼料 方法一: > sample(1:12) [1] 10 7 2 1 3 6 4 9 5 8 12 11 方法二: > trt = rep(c("A","B","C"),each=4) > sample(trt) [1] "A" "B" "A" "A" "C" "C" "A" "B" "B" "C" "B" "C"
完全隨機設計 • CRD 適用時機:當試驗單位具同質性時, 即各試驗單位之變異很小時。如一塊平坦的試驗地, 其土讓地力分布均勻, 又飼料試驗所用的動物如鴨子之體重相近等。 • CRD 優點: • 資料分析簡單易行。 • 參試處理數與重複次數不受限制, 若有missing data, 仍可進行變方分析。
CRD 變方分析 組內(誤差) 平方和 組間(處理) 平方和 總平方和
CRD 變方分析 • Under H0, F = MSt/MSE ~ F(a-1,N-a) • 若 F 值之 p-value < 0.05, 表示處理具有顯著性的影響。
R: CRD 變方分析 • 利用 lm function: > out = lm(y~trt) • 觀看變方分析結果: > summary(out) → 直接觀看結果 > anova(out) → 產生漂亮的變方分析表
CRD 重複次數 • 欲決定各處理的重複次數, 須指定: α: 可容忍的 Type I error 機率 β: 可容忍的 Type II error 機率 d : 當 , 認定兩處理有顯著差異 σ2: 組內變異程度 • 根據上述條件, 每處理所需重複數為
CRD 重複次數 例: 欲用同一批天竺鼠檢驗其他飼料, 在試驗進行前, 需決定各飼料的重複數。自訂 α= 0.05, β= 0.2, d = 5, σ2 = 7.11 符合上述條件所需的重複數: 因此, 各處理至少需5重複。 sqrt(7.11) qnorm(1-0.05/2) qnorm(1-0.2)
Summary: CRD 1. 了解各設計之應用時機: 試驗單位同質 2. 決定各處理的樣本大小 3. 如何分配試驗單位至不同處理: 隨機分配 4. 變方分析表:
隨機完全區集設計 • 前面所述完全隨機設計 (CRD) 是在試驗單位同質時採用, 若試驗單位異質, 即各試驗單位變異不均勻, 則不適合採用。 例: 雄雞發育比雌雞快, 考慮下列兩種試驗 試驗一 試驗二
隨機完全區集設計 • 隨機完全區集設計 (RCBD): 將試驗單位分為幾組較同質的區集 (block), 在每一區集內試驗單位個數等於處理數。區集內試驗單位接受何種處理由隨機排列決定。 RCBD 非 RCBD
隨機完全區集設計 例: 設今有 ABC 三種飼料, 進行養豬試驗, 每種飼料重複四次, 故需 3 x 4 = 12 頭小豬。 困難:不同胎小豬體重變異大, 但一胎不足12頭。 解決方法:每胎選 3頭體重相近小豬, 共選 4 胎。 每胎的3隻小豬依隨機方式決定飼料。
隨機完全區集設計 • RCBD 適用時機: 當試驗單位為異質, 但可將試驗單位區分為幾組較同質的區集時。區集內試驗單位數等於處理數(complete)。 • RCBD 優點: 有效控制因異質試驗單位造成之試驗誤差。 缺點: 各處理之重複次數必需相等。
RCBD 變方分析 • 若區集 F 值之 p-value < 0.05, 表示區集效應的確存在。 • 若處理 F 值之 p-value < 0.05, 表示處理具有顯著影響。
RCBD 變方分析 例: ABC 三種飼料, 以四胎 (每胎三隻) 小豬進行RCBD試驗:
R: RCBD 變方分析 > x = c(10,15,16,15,16,20,25,22,14,18,20,16) > trt = gl(3,4,labels=c("A","B","C")) > block = gl(4,1,12) > out = lm(x ~ trt + block) > anova(out)
RCBD 缺值估算法 • 採用 RCBD 唯一的限制是每處理有相等的重複次數, 如果在試驗終了, 有少數幾個單位之資料遺失或實驗失敗, 可用缺值估計法加以補救! • 原理: 找到使 SSE 最小的估計值
RCBD 缺值估算法 • 暫且令 ? = y SSE = f(y); 解出使 SSE 最小的 y 值
RCBD 缺值估算法 • 若只有單一缺值: 令 T = 與缺值同處理其餘觀測值和 B = 與缺值同區集其餘觀測值和 G = 所有其餘觀測值和 前例: T = 58 , B = 36, G = 182 y = 22.67 • 若有兩個以上缺值: 解聯立方程式!
相對效率 • 比較兩個試驗設計, 何者有較高的精密度: if RE(Design1/Design2) > 1: 選擇Design 1 < 1: 選擇Design 2
相對效率 • 比較 CRD 與RCBD: 但實際上並未執行 CRD; RCBD 結果可用來估計 CRD 之誤差均方:
相對效率 • 3隻小豬 RCBD 試驗相對 CRD 的效率為何? 表示 RCBD 比 CRD 效率多出將近5倍!
RCBD 重複次數 • 欲決定各處理的重複次數, 須指定: α: 可容忍的 Type I error 機率 β: 可容忍的 Type Ii error 機率 d : 當 , 認定兩處理有顯著差異 σ2: 組內變異程度 • 根據上述條件, 每處理所需重複數為
Summary: RCBD 1. RCBD應用時機: 試驗單位不同質, 但能將試驗單位區分為幾組較同質的區集; 區集內試驗單位數等於處理數 → 缺值估計 2. 各處理的樣本大小: 3. 如何分配試驗單位至不同處理: 在區集中隨機分配 4. 變方分析表: