1 / 48

統計應用軟體 Statistical Computations and Analysis

統計應用軟體 Statistical Computations and Analysis. Lecture 8: Variable Transformation; Introduction of Experimental Designs. Variable Transformation 變數轉換. 變方分析 (ANOVA) 之基本假設. 1. 各樣本來自常態分配 (normality) 2. 各樣本之族群互相獨立 (independence) 3. 各組樣本之族群變方相同 (homogeneity-of-variance)

anana
Download Presentation

統計應用軟體 Statistical Computations and Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計應用軟體Statistical Computations and Analysis Lecture 8: Variable Transformation; Introduction of Experimental Designs

  2. Variable Transformation變數轉換

  3. 變方分析 (ANOVA) 之基本假設 1. 各樣本來自常態分配 (normality) 2. 各樣本之族群互相獨立 (independence) 3. 各組樣本之族群變方相同(homogeneity-of-variance) Note: 族群變方不相等時: (1) 變數轉換 (variable transformation) (2) 無母數分析 (nonparametric methods)

  4. 變方分析 例: 研究 6 海岸線各 25 個區域內觀察到的螃蟹隻數: Step 1. Test H0: σ12 = …=σk2 Step 2. If equal variance ANOVA

  5. Practice by Yourself at Home

  6. Test Equal Variance • Test H0: σ12 = …=σk2 Bartlett Test statistic = 153.27, p-value < 2.2e-16 Reject H0!

  7. 變數轉換 • 目標:所有處理經轉換後的觀測值具有類似之變異程度; 即不同 對應到類似的 Si2。 轉換後

  8. Box-Cox Transformation • Box 與 Cox 研究各處理變方與均值的比例關係, 發現以下轉換方式可穩定變方! Step1:決定變方與均值的比例參數:λ log(Si2) = c + βlog( ); λ= 1 –β Step2:將原觀測值 X 轉換為 Y = (Xλ– 1)/λ, if λ≠0 = log(x), if λ= 0

  9. R: Box-Cox Transformation • 利用R尋找λ > library(MASS) > boxcox(x~trt) Best λ

  10. R: Box-Cox Transformation • λ為圖中獲得 log-Likelihood 最大值的數字 • 為了方便解釋, 通常會選擇最佳λ附近的以0.5 為單位 (開根號) 的數字進行 Box-Cox Transformation

  11. R: Box-Cox Transformation 例: 螃蟹 > x = c(0, 0, 22, …) > trt = gl(6,25) > library(MASS) > boxcox(x+0.01 ~ trt) 選擇λ= 0 log > y = log(x+0.01) > bartlett.test(y,trt) p.value = 0.745 利用Y 進行 ANOVA!

  12. R: Box-Cox Transformation

  13. General Transformations • 進行Box-Cox transformation, x 內所有觀測值必需大於 0 (為取log之故); 若觀測值小於或等於 0, 可自行繪製樣本均值與標準差之圖表進行判斷:

  14. Introduction of Experimental Design

  15. History of Experimental Designs • 英國農藝學家 Young 於 1763 年繼承父親的農場, 決定從事試驗工作來提高作物產量。根據幾年的研究經驗, 他認為: • 作物生長受土壤肥力、病蟲害、氣候條件等其它因素影響, 因此需將欲比較的栽培法或作物品種同時同地放在一起試驗, 才能分出其優劣 • 一次試驗結果不足以採信, 需多次重複試驗 • 丹麥人 Nielson (1880) 從事牧草品種收量比較試驗, 在田間依不同順序排列牧草品種, 發現如此的試驗結果較為合理。

  16. History of Experimental Designs • Fisher (1920s): 規畫各種試驗設計法, 強調試驗時隨機排列與環境控制的重要性, 以有效減少誤差。 • Yates (1933) 解決處理數很多時, 有效控制環境變異的問題。 …

  17. Experimental Designs • 何謂試驗設計? 試驗設計是在試驗前預先決定試驗的步驟, 以期有效控制實驗時可能發生的偏差, 未來得以收集到最精確的資料!

  18. 資料收集 流程計畫 資料收集 資料整理 與分析 對研究目的 進行推論 Part II 推論統計 Part II 推論統計 課程內容 Part III 試驗設計 Part I 敘述統計 抽樣方法

  19. 試驗設計實例 例: 欲比較三種飼料對天竺鼠體重之影響, 將12隻天竺鼠隨機指派食用三種飼料(4隻飼料A; 4隻飼料B; 4隻飼料C),兩星期後體重增加之觀測值(g): 試驗前Q1:如何決定各處理的樣本大小? Q2:如何決定1~12隻天竺鼠吃何種飼料? …

  20. 試驗設計 • 試驗設計遵守下列原則以控制實驗偏差: • 重複 (replication) • 隨機排列 (random arrangment) • 區集 (block)

  21. 單因子 vs 複因子試驗設計 • 單因子試驗設計在探討不同 levels 之單一因子 (處理)對於試驗單位造成效應為何。 • 複因子試驗設計同時探討兩個以上因子之主效應與其交互作用: • 各因子之主效應 (main effect): 兩因子各自照成的效應。 • 因子間的交感效應 (interaction): A 因子不同 level 的均值差異是否隨 B 因子 level 改變?

  22. 常見試驗設計 • 單因子試驗設計: • 完全隨機設計 (CRD) • 隨機完全區集設計 (RCBD) • 拉丁方設計 (LSD) • 均衡不完全區集設計 (BIBD) • 複因子試驗設計: • 兩因子試驗設計 (two-factor factorial design) • 摺疊設計 (nested design) • 裂區設計 (split-plot design)

  23. 課程內容 • 本課程內容: • 包含: 1. 了解各設計之應用時機 2. 決定各處理的樣本大小 3. 如何分配試驗單位至不同處理 4. 如何寫出不同設計之變方分析表 • 不包含: 各式理論推導

  24. 完全隨機設計 • 完全隨機設計 (Completely Randomized Design, CRD): 將試驗單位隨機分配至各處理。 例: 將12隻 (sample size?) 天竺鼠隨機指派食用ABC三種飼料:

  25. 完全隨機設計 例: 將12隻天竺鼠隨機指派食用ABC三種飼料 方法一: > sample(1:12) [1] 10 7 2 1 3 6 4 9 5 8 12 11 方法二: > trt = rep(c("A","B","C"),each=4) > sample(trt) [1] "A" "B" "A" "A" "C" "C" "A" "B" "B" "C" "B" "C"

  26. 完全隨機設計 • CRD 適用時機:當試驗單位具同質性時, 即各試驗單位之變異很小時。如一塊平坦的試驗地, 其土讓地力分布均勻, 又飼料試驗所用的動物如鴨子之體重相近等。 • CRD 優點: • 資料分析簡單易行。 • 參試處理數與重複次數不受限制, 若有missing data, 仍可進行變方分析。

  27. CRD 變方分析 組內(誤差) 平方和 組間(處理) 平方和 總平方和

  28. CRD 變方分析 • Under H0, F = MSt/MSE ~ F(a-1,N-a) • 若 F 值之 p-value < 0.05, 表示處理具有顯著性的影響。

  29. R: CRD 變方分析 • 利用 lm function: > out = lm(y~trt) • 觀看變方分析結果: > summary(out) → 直接觀看結果 > anova(out) → 產生漂亮的變方分析表

  30. CRD 重複次數 • 欲決定各處理的重複次數, 須指定: α: 可容忍的 Type I error 機率 β: 可容忍的 Type II error 機率 d : 當 , 認定兩處理有顯著差異 σ2: 組內變異程度 • 根據上述條件, 每處理所需重複數為

  31. CRD 重複次數 例: 欲用同一批天竺鼠檢驗其他飼料, 在試驗進行前, 需決定各飼料的重複數。自訂 α= 0.05, β= 0.2, d = 5, σ2 = 7.11 符合上述條件所需的重複數: 因此, 各處理至少需5重複。 sqrt(7.11) qnorm(1-0.05/2) qnorm(1-0.2)

  32. Summary: CRD 1. 了解各設計之應用時機: 試驗單位同質 2. 決定各處理的樣本大小 3. 如何分配試驗單位至不同處理: 隨機分配 4. 變方分析表:

  33. 隨機完全區集設計 • 前面所述完全隨機設計 (CRD) 是在試驗單位同質時採用, 若試驗單位異質, 即各試驗單位變異不均勻, 則不適合採用。 例: 雄雞發育比雌雞快, 考慮下列兩種試驗 試驗一 試驗二

  34. 隨機完全區集設計 • 隨機完全區集設計 (RCBD): 將試驗單位分為幾組較同質的區集 (block), 在每一區集內試驗單位個數等於處理數。區集內試驗單位接受何種處理由隨機排列決定。 RCBD 非 RCBD

  35. 隨機完全區集設計 例: 設今有 ABC 三種飼料, 進行養豬試驗, 每種飼料重複四次, 故需 3 x 4 = 12 頭小豬。 困難:不同胎小豬體重變異大, 但一胎不足12頭。 解決方法:每胎選 3頭體重相近小豬, 共選 4 胎。 每胎的3隻小豬依隨機方式決定飼料。

  36. 隨機完全區集設計 • RCBD 適用時機: 當試驗單位為異質, 但可將試驗單位區分為幾組較同質的區集時。區集內試驗單位數等於處理數(complete)。 • RCBD 優點: 有效控制因異質試驗單位造成之試驗誤差。 缺點: 各處理之重複次數必需相等。

  37. RCBD 變方分析

  38. RCBD 變方分析 • 若區集 F 值之 p-value < 0.05, 表示區集效應的確存在。 • 若處理 F 值之 p-value < 0.05, 表示處理具有顯著影響。

  39. RCBD 變方分析 例: ABC 三種飼料, 以四胎 (每胎三隻) 小豬進行RCBD試驗:

  40. R: RCBD 變方分析 > x = c(10,15,16,15,16,20,25,22,14,18,20,16) > trt = gl(3,4,labels=c("A","B","C")) > block = gl(4,1,12) > out = lm(x ~ trt + block) > anova(out)

  41. RCBD 缺值估算法 • 採用 RCBD 唯一的限制是每處理有相等的重複次數, 如果在試驗終了, 有少數幾個單位之資料遺失或實驗失敗, 可用缺值估計法加以補救! • 原理: 找到使 SSE 最小的估計值

  42. RCBD 缺值估算法 • 暫且令 ? = y SSE = f(y); 解出使 SSE 最小的 y 值

  43. RCBD 缺值估算法 • 若只有單一缺值: 令 T = 與缺值同處理其餘觀測值和 B = 與缺值同區集其餘觀測值和 G = 所有其餘觀測值和 前例: T = 58 , B = 36, G = 182 y = 22.67 • 若有兩個以上缺值: 解聯立方程式!

  44. 相對效率 • 比較兩個試驗設計, 何者有較高的精密度: if RE(Design1/Design2) > 1: 選擇Design 1 < 1: 選擇Design 2

  45. 相對效率 • 比較 CRD 與RCBD: 但實際上並未執行 CRD; RCBD 結果可用來估計 CRD 之誤差均方:

  46. 相對效率 • 3隻小豬 RCBD 試驗相對 CRD 的效率為何? 表示 RCBD 比 CRD 效率多出將近5倍!

  47. RCBD 重複次數 • 欲決定各處理的重複次數, 須指定: α: 可容忍的 Type I error 機率 β: 可容忍的 Type Ii error 機率 d : 當 , 認定兩處理有顯著差異 σ2: 組內變異程度 • 根據上述條件, 每處理所需重複數為

  48. Summary: RCBD 1. RCBD應用時機: 試驗單位不同質, 但能將試驗單位區分為幾組較同質的區集; 區集內試驗單位數等於處理數 → 缺值估計 2. 各處理的樣本大小: 3. 如何分配試驗單位至不同處理: 在區集中隨機分配 4. 變方分析表:

More Related