1 / 54

統計應用軟體 Statistical Computations and Analysis

統計應用軟體 Statistical Computations and Analysis. Lecture 13: Experimental Designs (IV); Correlation and Linear Regression. 常見試驗設計. 單因子試驗設計 : 完全隨機設計 (CRD) 隨機完全區集設計 (RCBD) 拉丁方設計 (LSD) 均衡不完全區集設計 (BIBD) 複因子試驗設計 : 兩因子相交設計 (two-factor crossed design) 巢式設計 (nested design)

Download Presentation

統計應用軟體 Statistical Computations and Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計應用軟體Statistical Computations and Analysis Lecture 13: Experimental Designs (IV); Correlation and Linear Regression

  2. 常見試驗設計 • 單因子試驗設計: • 完全隨機設計 (CRD) • 隨機完全區集設計 (RCBD) • 拉丁方設計 (LSD) • 均衡不完全區集設計 (BIBD) • 複因子試驗設計: • 兩因子相交設計 (two-factor crossed design) • 巢式設計 (nested design) • 裂區設計 (split-plot design)

  3. Crossed and Nested Design • Crossed and nested design: • crossed design:不同 level 之 A 因子下, B 因子的 level 維持相同。 • nested design:不同 level 之 A 因子下, B 因子的 level 不同。 例: A factor (2 levels), B factor (2 levels): • A cross B: A1B1, A1B2, A2B1, A2B2 • B nested in A: A1B1, A1B2, A2B3, A2B4

  4. Factorial Design • 無論是 crossed 或 nested design, 均可與單因子的試驗設計法結合: crossed + CRD nested + CRD crossed + RCBD nested + RCBD …

  5. 裂區設計 • Motivation: crossed + RCBD revisit 例: 水稻三品種在生長期間進行浸水深度試驗: Factor A:水稻品種 (V1, V2, V3) Factor B:浸水深度 (D1, D2) 每處理組合重複 3 次, 以小區為試驗單位: • Problem: 每小區水稻品種之種植容易進行, 但灌水深度設置不易控制! 區 集

  6. 裂區設計 大區 區 集 小區 區 集

  7. 裂區設計 • 若有 A (a levels) 與 B (b levels) 兩因子: Step1:將試驗材料, 劃分為大區 (或稱主區), 每個大區再分裂為幾個小區。 Step2:須同時試驗的處理隨機安排與大區中, 隨機的方式可為 CRD、RCBD或 LSD。 Step3:將大區視為 block, 依RCBD原則將另一處理隨機安排與小區中。

  8. 裂區設計 • 特色: 小區因子有較高的試驗可靠度! 1. 小區因子的重複數較多, 大區因子的重複較少 (Di: 3 重複, Vj: 6 重複) 2. 大區因子受環境因素影響較大 區 集

  9. 裂區設計 • 裂區設計適用時機: • 為試驗方便, 需將試驗單位歸為較大的大區同時受試 • 參試兩因子其中之一比較重要; 較重要因子令其為小區因子, 次重要者為大區因子 • 在試驗進行半途加入另一個參試因子 • 裂區設計缺點: • 大區因子試驗可靠性比 crossed design 差 • 缺值估算複雜

  10. 裂區設計變方分析表

  11. R: 裂區設計 Step1:輸入各觀測數值與相對應的處理 Step2:利用 ‘aov’計算變方分析結果, 並藉由 ‘summary’製作變方分析表。 Note: • lm + anova • aov + summary

  12. R: 裂區設計 • ‘aov’ model 寫法: > out = aov(原始model + Error(strata)) 原始model:假設試驗為 crossed design 的 model 寫法。 Strata:變方分析表第一層變數名稱, 以冒號分隔

  13. R: 裂區設計 • CRD: > out = aov(y ~ A*B + Error(A)) > summary(out) • RCBD: > out = aov(y ~ block + A*B + Error(block:A)) > summary(out) • LSD: > out = aov(y ~ row + col + A*B + Error(row:col:A)) > summary(out)

  14. R: 裂區設計 例: (RCBD + 裂區設計) 馬鈴薯三品種(V1, V2, V3) 以兩種不同耕犁深度(D1,D2)組合進行產量比較測驗:

  15. R: 裂區設計

  16. > interaction.plot(v,d,x)

  17. Correlation and Linear Regression

  18. 變數間的關係 • 目前所述各種統計方法都是研究事物間的差異性 (difference); 相關係數與簡單直線迴歸則是探討事物間或變數間的相關性 (relationship) 。

  19. 例1:氮肥用量與水稻穀收量表(公斤) 例2:成人年齡與血液中膽固醇的量 例3:年雨量與小麥產量

  20. Scatter Plot • 兩連續變數的關係, 可藉由散佈圖(scatter plot) 觀察: > plot(x,y) 例1: 氮肥用量 與水稻穀收量

  21. Scatter Plot 例2: 成人年齡與膽固醇 例3: 年雨量與小麥產量

  22. 探討兩個變數間的線性關係 • 相關係數與簡單直線迴歸: 探討兩個變數間是否存在直線關係! • 相關係數 (correlation coefficient): 利用介於 [-1,1] 的數值表示兩族群的線性相關程度 • 簡單直線迴歸 (simple linear regression): 以一直線模式 (linear model) 描述兩變數的關係

  23. 族群相關係數 • 成對變數 (Xi , Yi) ~ N2(μ, Σ)

  24. 族群相關係數 μy μy μy μχ μχ μχ (c) ρ= 0 無相關 (a) ρ> 0 正相關 (b) ρ< 0 負相關

  25. 樣本相關係數 • 由樣本估計兩變數的相關係數: 樣本資料:(x1,y1), …, (xn,yn)

  26. r = 1 r = -1 y y x x 樣本相關係數 (a)完全正相關 (b)完全負相關

  27. 0 < r < 1 -1 < r < 0 y y x x 樣本相關係數 (a)不完全正相關 (b)不完全負相關

  28. 樣本相關係數 r = 0 r = 0 y y x x (a)無相關 (b)曲線關系

  29. 相關係數顯著性檢定 H0:ρ= 0 v.s. Ha:ρ≠ 0 • 統計值: • If H0 is true, T ~ t(n-2), p-value = 2*(1 – pt(abs(T), n-2)) • 若 p-value < 0.05, reject H0

  30. R: Correlation Coefficient • 計算樣本相關係數: cor(x,y) • 相關係數顯著性檢定: cor.test(x, y)

  31. R: Correlation Coefficient 例1: 氮肥用量與水稻穀收量

  32. 簡單直線迴歸 • 簡單直線迴歸 (simple linear regression): 以一直線模式描述兩變數的關係 y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x = 0時 y的值 β1:斜率(Slope) x變動一個單位 y變動的量 εi:誤差(Error)或殘差(Residual)

  33. 簡單直線迴歸 y An observed value of y when x equals x0 Error term μy∣x=β0+β1x Mean value of y when x equals x0 Slope = β1 β0 One-unit change in x y-intercept x 0 x0= A specific value of the independent variable x

  34. 簡單直線迴歸 • 欲藉由直線迴歸式推算不同 x值所得 y值為何; 但在直線迴歸式中, β0與β1為未知母數, 可利用最小平方法由樣本估算之:

  35. 迴歸變方分析表 Y 不可由x解釋之變異 總變異 可由x解釋之變異 X 獨立變數

  36. 迴歸變方分析表 迴歸變方分析表 • 總變異= 可由迴歸線解釋的變異 + 不可由迴歸線解釋的變異 總平方和(SST) = 回歸平方和(SSR) + 殘差平方和(SSE) 自由度:n – 1 = 1 + (n – 2)

  37. 迴歸變方分析 • 若 F 值之 p-value < 0.05, 表示兩變數具直線相關性 (β1 ≠ 0)! Note:

  38. R:簡單直線迴歸 • 迴歸分析: > out = lm(y~x) • b0與 b1計算結果: > summary(out) • 變方分析表: > anova(out)

  39. R:簡單直線迴歸 例3: 年雨量與小麥產量

  40. R:簡單直線迴歸

  41. R:簡單直線迴歸 Note: F = t2 (15.014 ≒ 3.8752)

  42. 決定係數 R2 • 決定係數是表示兩變數具直線相關性的另一指標: • 0 < R2 < 1 • 當 R2接近 1 時, 表示 y 的訊息可由此迴歸式決定的比例越高。

  43. R:決定係數 R2

  44. R:簡單直線迴歸 • 在散布圖上畫出迴歸線: > plot(x,y) > out = lm(y~x) > abline(out)

  45. y b0 + b1x0 x0 x 0 簡單直線迴歸預測 • 預測 x = x0時, y 值為何? b0 + b1x

  46. 簡單直線迴歸預測

  47. R:簡單直線迴歸預測 > out = lm(y3~x3) > new.data = data.frame(x3=c(21,25)) > predict(out, new.data, interval = “prediction”)

  48. R:簡單直線迴歸預測 • 利用簡單直線迴歸預測的限制: 推測範圍: min(x) ≦ x0 ≦ max(x) 13.15+11.38x

  49. 基本假設檢定 • 簡單直線迴歸之基本假設: Check: 1. Normality 2. Independence 3. Homogeneity of Variance

  50. 基本假設檢定 • R can help! > out = lm(y~x) > plot(out) 輸出 3 個檢驗圖, 利用鍵盤上的 Enter 鍵換頁或按一下滑鼠

More Related