統計應用軟體 Statistical Computations and Analysis

統計應用軟體Statistical Computations and Analysis Lecture 3: Basic Statistical Concepts

Outline for Today 3.1 Quick review of “what is statistics?” 3.2 Data collection 3.3 Describe a sample (敘述統計)

What is Statistics?

Everything Begins with a Question • 統計是在變異(Variation)的壓力下，收集、統整、詮釋量化資料, 以解決真實世界的各種問題的科學; “問題”包羅萬象。例如: • 股票市場是否受總統大選結果影響? • 吸煙導致肺癌? • 增進數學能力的最佳教學方法為何? • 具抗性水稻與一般水稻的基因表現差異?

變異的壓力 • 客觀環境的差異: • 例:兩塊面積相同的田地可能有不同的肥沃度。 • 研究對象間的差異: • 例:住在相同環境的同一胎的小豬生長速度各自不同。究竟最後差異的結果是處理的效果? 還是上述變異造成的? 去蕪存菁!

統計學能做什麼? • 描述數據 • 設計實驗 • 檢驗我們有興趣事件間的關係 • 判別假設的正確與否 • 了解實驗與其結論的正確性

資訊不足! 定義研究目標資料收集流程計畫資料收集資料整理與分析對研究目的進行推論決定新研究方向公佈結論 Quit 研究進行流程

資料收集 流程計畫資料收集資料整理與分析對研究目的進行推論 Part II 推論統計 Part II 推論統計課程內容 Part III 試驗設計 Part I 敘述統計抽樣方法

統計學不能做什麼? • 統計不能“證實”理論: • 股票市場受總統大選結果影響。 • 吸煙導致肺癌。 • 增進數學能力的最佳教學方法為建構式數學。 • 具抗性水稻與一般水稻的基因表現不同。統計不能證實任何事情! • 統計解釋一個研究結果發生的機率大小!

Data Collection

資訊不足! 決定族群定義研究目標選取樣本資料收集流程計畫選擇變數資料收集變數觀測資料整理與分析對研究目的進行推論決定新研究方向公佈結論 Quit 資料收集

決定族群 選取樣本選擇變數變數觀測族群與樣本 • What is the population? • 定義研究目標後首要在決定研究對象。 • Population (族群、母體、母群): 研究對象所有個別單位的集合。可細分為: • 有限族群:族群內研究對象個數有限 • 無限族群:族群內研究對象個數無限 • 假設族群:族群內研究對象個數未知

決定族群 選取樣本選擇變數變數觀測族群與樣本 • How to study the population? • Census (普查): • 只限於有限族群 • 耗費人力、物力、時間 • 有時反降低研究準確度 • Sampling (抽樣方法): • 節省人力、物力、時間 • 每一研究對象能花較多時間收集資料獲得更多資訊

決定族群 選取樣本選擇變數變數觀測族群與樣本 • What is a sample? • Sample (樣本):由族群中選取一小部份具有代表性的研究對象之集合, 為一個樣本。

決定族群 選取樣本選擇變數變數觀測 Random Sample • 如何選取具有代表性的樣本, 是“抽樣方法”的研究範圍: • 非機率抽樣:研究者依主觀判斷選取的資料 • 機率抽樣: • 假設所有可能的樣本為: S1, S2, …, Sk • 利用隨機的方式決定第 i 個樣本被選取的機率 P(Si), 且P(S1) + P(S2) +…+ P(Sk) = 1 • 機率抽樣得以避免主觀意識造成錯誤的結論。

決定族群 選取樣本選擇變數變數觀測 Simple Random Sampling • 簡單隨機抽樣 (simple random sampling, SRS) • 最廣泛應用的機率抽樣法 • 每個樣本被選取的機率相同所有可能的樣本: S1, S2, …, Sk SRS 指每個樣本被選取的機率都 = 1/k

SRS Example

Simple Random Sampling (SRS) • SRS with replacement (SRSWR) 置回抽樣: 每次從有限母體抽出一個單位後再將其置回，故母體始終維持原狀，也因此整組樣本中每一個單位都是從維持原分佈之母體中隨機抽出，形成 “獨立且同分佈” (independently and identically distributed, iid) 的樣本。 • SRS without replacement (SRSWOR) 不置回抽樣: 每次從有限母體抽出一個單位後不再置回，故母體逐漸縮小，也因此整組樣本中每一個單位都是從不同分佈之母體中抽出，得到 “非i.i.d.” 樣本。 • 無限大母體 (infinite population) 之情況，無論置回抽樣或不置回抽樣，所得樣本通常均被視為iid，這是因為不置回抽樣對於“母體逐漸縮小”之作用微乎其微所致。

決定族群 選取樣本選擇變數變數觀測 SRSWOR by R: sample • sample(N,n):由1至N中選取n個整數 > sample(1000,10) [1] 549 817 413 38 280 600 321 990 341 580 • sample(x,n):由x中選取其中n個元素 > x = c(23,45,67,1,- 45,21,.9,4,-3,.25) > sample(x,5) [1] 21.00 -45.00 67.00 23.00 0.25

決定族群 選取樣本選擇變數變數觀測 SRSWR by R: sample • sample(N,n,replace=T):由1至N中選取n個整數 > sample(10,10,replace=T) [1] 9 2 6 8 10 9 8 8 2 6 • sample(x,n,replace=T):由x中選取其中n個元素 > x = c(23,45,67,1,- 45,21,.9,4,-3,.25) > sample(x,5,replace=T) [1] 1 1 23 -3 45

決定族群 選取樣本選擇變數變數觀測 Other Usage of sample • sample(n):將1至n的整數隨機排列 > sample(10) [1] 8 2 1 3 5 10 7 9 4 6 • sample(x):將x中的元素隨機排列 > sample(x) [1] 4.00 23.00 45.00 -3.00 0.25 67.00 -45.00 21.00 [9] 1.00 0.90

決定族群 選取樣本選擇變數變數觀測 Random Variable • 如何描述樣本?直接從樣本觀察或計算得來的測量值, 稱為隨機變數(random variable, RV), 通常以大寫的羅馬字母命名。 • 觀察樣本本身的測量值: X, Y,… • 由樣本組合計算得來的測量值: , S2 【Hint】LaTeX排版時, 隨機變數名稱需斜體。一般以“數學模式”輸入。例如: $X$

決定族群 選取樣本選擇變數變數觀測 Random Variable • 隨機變數類型: • 分立變數: • 類別變數: High/Median/Low, ABO blood types • 數值變數: 0/1, {0,1,…,10}, etc. • 連續變數: 如稻米收穫量[0, ∞), 公司獲利(-∞, ∞), etc. • 不同類型的隨機變數有不同的統計分析方法

決定族群 選取樣本選擇變數變數觀測 Random Variable • 變數的選擇依各專業人員依研究目的判斷, 但相同研究目的可能選擇不同的變數: EX.某工廠欲研究渦輪機刀片生產品質, 可選擇的變數如下: 1. 刀片是否在生產過程中變型? Yes/No (分立變數; 類別) 2. 刀片表面光滑程度: 光滑/微量粗糙/大量粗糙 (分立變數; 類別) 3. 每盒100片刀片中有碬疵的數目: {0, 1, …, 100} (分立變數; 數值) 4. 刀片的延展程度: (0, ∞) (連續變數) 5. 刀片放入渦輪機後的壽命長度: (0, ∞) (連續變數) …

決定族群 選取樣本選擇變數變數觀測 Random Variable • 隨機變數包含“隨機”的概念: • 由於每次抽取的樣本可能不同, 取得不同樣本時觀測值自然也不盡相同, 造成變數度量上的差異, 因此衍生出隨機變數的準確度、精密度等概念。

Let’s Simulate! • 以SRS為例說明準確度與精密度的意義: 擲硬幣三次, 所有可能樣本如下: 令 X = 三次中得到 H 的次數。如何用 R 模擬擲三次硬幣, 並計算得到 H 的次數? 重複模擬 10 次, 將結果記錄在一個向量中。 3 min

> x = sample(0:1,3,replace=T) # 1: Head > sum(x) > y = rep(NA,10) > y[1] = sum( sample(0:1,3,replace=T) ) > y[2] = sum( sample(0:1,3,replace=T) ) … > y = rep(NA,10) > for (i in 1:10){ + y[i] = sum( sample(0:1,3,replace=T) ) + } > y [1] 1 2 1 2 2 2 3 1 3 2

決定族群 選取樣本選擇變數變數觀測低精密度低準確度低精密度高準確度 Random Variable • 精密度(Precision): 各樣本變數觀測值集中或分散的程度 • 準確度(Accuracy): 各樣本變數觀測值靠近族群真值的程度理想情況高精密度高準確度高精密度低準確度

決定族群 選取樣本選擇變數變數觀測變數觀測 • 決定欲觀察隨機變數後, 即進行實際觀測或資料收集的工作; 實際量測的觀測數值常以小寫的羅馬字母命名, 如: x, y, , s2。 EX. 隨機變數: X = 甘蔗產量觀測值: x1 = 45 x2 = 66 x3 = 54 …

敘述統計

如何有效敘述資料? • 樣本資料收集後非常凌亂, 但人類心靈所能領悟的複雜程度有限; 透過 1. 表格 (tables) 2. 圖型 (graphs) 3. 摘要統計值 (summary statistics) 將有助於研究者或他人對資料的了解。

資訊不足! 定義研究目標資料收集流程計畫資料收集資料整理與分析對研究目的進行推論決定新研究方向公佈結論表格製作繪圖摘要統計值 Quit 資料整理

表格製作 繪圖摘要統計值表格製作 • 單一變數: • 分立變數: 次數分布表 • 連續變數: (分組)次數分布表 • 兩個以上變數: • 分立變數: 二維或高維關聯表

表格製作 繪圖摘要統計值次數分布表

表格製作 繪圖摘要統計值次數分布表by R (ugly!) > x = sample(3,20,replace=TRUE) > x [1] 1 3 1 3 2 2 3 3 3 2 1 2 2 1 3 1 1 1 1 3 > table(x) x 1 2 3 8 5 7 > cumsum(table(x)) 1 2 3 8 13 20 > table(x)/length(x)*100 x 1 2 3 40 25 35 > cumsum(table(x)/length(x)*100) 1 2 3 40 65 100 次數累積次數相對次數相對累積次數

表格製作 繪圖摘要統計值分組次數分布表

> x = rnorm(30) > my.table = hist(x,plot=FALSE) > summary(my.table) Length Class Mode breaks 5 -none- numeric counts 4 -none- numeric intensities 4 -none- numeric density 4 -none- numeric mids 4 -none- numeric xname 1 -none- character equidist 1 -none- logical > my.table $breaks [1] -3 -2 -1 0 1 2 3 4 $counts [1] 1 4 15 6 2 1 1 … $mids [1] -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 表格製作繪圖摘要統計值分組次數分布表by R (ugly!) 組界次數組中值

表格製作 繪圖摘要統計值分組次數分布表by R (ugly!) > t = my.table$counts > t [1] 1 4 15 6 2 1 1 > cumsum(t) [1] 1 5 20 26 28 29 30 > t/sum(t)*100 [1] 3.333333 13.333333 50.000000 20.000000 6.666667 [6] 3.333333 3.333333 > cumsum(t/sum(t)*100) [1] 3.333333 16.666667 66.666667 86.666667 93.333333 [6] 96.666667 100.000000 次數累積次數相對次數相對累積次數

表格製作 繪圖摘要統計值二維關聯表 > x <- sample(c("H","M","L"),20,T) > y <- sample(c("A","B","C"),20,T) > tt <- table(x,y) > prop.table(tt) > margin.table(tt,1) > margin.table(tt,2)

高維關聯表實例 > help(ftable) ## Start with a contingency table. > ftable(Titanic, row.vars = 1:3) > ftable(Titanic, row.vars = 1:2, col.vars = "Survived") > ftable(Titanic, row.vars = 2:1, col.vars = "Survived")

表格製作 繪圖摘要統計值繪圖 • 單一變數: • 類別變數: 長條圖(bar)、圓形圖(pie) • 數值變數: 莖葉圖(stem-and-leaf) 、直方圖(histogram) 、盒鬚圖(box plot) 、多邊圖(polygon) 、累計次數多邊圖 • 成對變數: • 兩數值變數: 散佈圖 (scatter plot) • 其中之一為類別變數: side-by-side plot (bar, stem-and-leaf, histogram, etc)

表格製作 繪圖摘要統計值類別變數圖 • 長條圖 > x = sample(LETTERS[1:3], 20, T) > x [1] "A" "B" "B" "C" "C" "C" "B" "C" "A" "A" [11] "A" "C" "C" "A" "C" "C" "C" "C" "A" "B" > plot(factor(x)) > barplot(table(x)) • 圓型圖 > pie(table(x))

類別變數圖 圓型圖長條圖

表格製作 繪圖摘要統計值數值變數圖 > x = rnorm(100) • 莖葉圖 (stem-and-leaf plot) > stem(x) • 直方圖 (histogram) > hist(x) • 盒鬚圖 (box plot) > boxplot(x) • 多邊圖 (polygon) > tt <- hist(x) > lines(tt$mids,tt$counts) • 累計次數多邊圖 > plot(tt$mids,cumsum(tt$counts),type=“b”)

數值變數圖

表格製作 繪圖摘要統計值其它圖型 • 散布圖 (scatter plot) > x <- rnorm(100) > y <- x + rnorm(100,0,0.5) > plot(x,y) • 平行盒鬚圖(side-by-side box plot) > x <- sample(c(“A”,”B”),100,T) > y <- rnorm(100) > boxplot(y ~ factor(x), ylab=“y”)

其它圖型 平行盒鬚圖散布圖

表格製作 繪圖摘要統計值 Save the Graphics (1) 方法一: > postscript (“filename.ps”) …(畫圖指令) > dev.off() EX. > postscript(“d:/statcomp/homework/hist1.ps”) > x <- rnorm(100) > y <- x + rnorm(100,0,0.5) > plot(x,y) > abline(0,1) > dev.off()

表格製作 繪圖摘要統計值 Save the Graphics (2) 方法二: 在 R 的 “圖型視窗” 上按滑鼠右鍵, 選擇 “save as postscript”

Save the Graphics • 方法一與方法二的差異: • 方法一有較高的解析度, 適合用於插入文件。 • 方法二儲存結果與圖型視窗顯示完全相同。

統計應用軟體 Statistical Computations and Analysis

統計應用軟體 Statistical Computations and Analysis

Presentation Transcript

Practical Statistical Relational Learning

Statistical Analysis and Design: From Picoseconds to Probabilities

Statistical vs Clinical Significance

Statistical Power And Sample Size Calculations

Econometric Analysis of Panel Data

Non-compartmental analysis and The Mean Residence Time approach

Data analysis

Part 2 Statistical Mechanics

4-1 Statistical Inference

Statistical Inference and Regression Analysis: Stat-GB.3302.30, Stat-UB.0015.01

Statistical Inference and Regression Analysis: Stat-GB.3302.30, Stat-UB.0015.01

Useful Statistical Tools

Statistical Inference and Regression Analysis: GB.3302.30

Geometric Computations on GPU: Proximity Queries

Corpora and Statistical Methods

Laboratory for Interdisciplinary Statistical Analysis

Analysis of Variance (ANOVA) and Multivariate Analysis of Variance (MANOVA)

Local Computations in Large-Scale Networks

Part 2 Statistical Mechanics

Practical Statistical Relational AI

Statistical Models for Web Search Click Log Analysis

Detailed Modeling and Terminating Statistical Analysis