Statistical computations and analysis
This presentation is the property of its rightful owner.
Sponsored Links
1 / 59

統計應用軟體 Statistical Computations and Analysis PowerPoint PPT Presentation


  • 86 Views
  • Uploaded on
  • Presentation posted in: General

統計應用軟體 Statistical Computations and Analysis. Lecture 3: Basic Statistical Concepts. Outline for Today. 3.1 Quick review of “what is statistics?” 3.2 Data collection 3.3 Describe a sample ( 敘述統計 ) . What is Statistics?. Everything Begins with a Question.

Download Presentation

統計應用軟體 Statistical Computations and Analysis

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Statistical computations and analysis

統計應用軟體Statistical Computations and Analysis

Lecture 3:

Basic Statistical Concepts


Outline for today

Outline for Today

3.1 Quick review of “what is statistics?”

3.2 Data collection

3.3 Describe a sample (敘述統計)


What is statistics

What is Statistics?


Everything begins with a question

Everything Begins with a Question

  • 統計是在變異(Variation)的壓力下,收集、統整、詮釋量化資料, 以解決真實世界的各種問題的科學; “問題”包羅萬象。例如:

    • 股票市場是否受總統大選結果影響?

    • 吸煙導致肺癌?

    • 增進數學能力的最佳教學方法為何?

    • 具抗性水稻與一般水稻的基因表現差異?


Statistical computations and analysis

變異的壓力

  • 客觀環境的差異:

    • 例:兩塊面積相同的田地可能有不同的肥沃度。

  • 研究對象間的差異:

    • 例:住在相同環境的同一胎的小豬生長速度各自不同。

      究竟最後差異的結果是處理的效果? 還是

      上述變異造成的? 去蕪存菁!


Statistical computations and analysis

統計學能做什麼?

  • 描述數據

  • 設計實驗

  • 檢驗我們有興趣事件間的關係

  • 判別假設的正確與否

  • 了解實驗與其結論的正確性


Statistical computations and analysis

資訊不足!

定義研究

目標

資料收集

流程計畫

資料收集

資料整理

與分析

對研究目的

進行推論

決定新

研究方向

公佈結論

Quit

研究進行流程


Statistical computations and analysis

資料收集

流程計畫

資料收集

資料整理

與分析

對研究目的

進行推論

Part II 推論統計

Part II 推論統計

課程內容

Part III 試驗設計

Part I 敘述統計

抽樣方法


Statistical computations and analysis

統計學不能做什麼?

  • 統計不能“證實”理論:

    • 股票市場受總統大選結果影響。

    • 吸煙導致肺癌。

    • 增進數學能力的最佳教學方法為建構式數學。

    • 具抗性水稻與一般水稻的基因表現不同。

      統計不能證實任何事情!

  • 統計解釋一個研究結果發生的機率大小!


Data collection

Data Collection


Statistical computations and analysis

資訊不足!

決定族群

定義研究

目標

選取樣本

資料收集

流程計畫

選擇變數

資料收集

變數觀測

資料整理

與分析

對研究目的

進行推論

決定新

研究方向

公佈結論

Quit

資料收集


Statistical computations and analysis

決定族群

選取樣本

選擇變數

變數觀測

族群與樣本

  • What is the population?

    • 定義研究目標後首要在決定研究對象。

    • Population (族群、母體、母群): 研究對象所有個別單位的集合。可細分為:

      • 有限族群:族群內研究對象個數有限

      • 無限族群:族群內研究對象個數無限

      • 假設族群:族群內研究對象個數未知


Statistical computations and analysis

決定族群

選取樣本

選擇變數

變數觀測

族群與樣本

  • How to study the population?

    • Census (普查):

      • 只限於有限族群

      • 耗費人力、物力、時間

      • 有時反降低研究準確度

    • Sampling (抽樣方法):

      • 節省人力、物力、時間

      • 每一研究對象能花較多時間收集資料獲得更多資訊


Statistical computations and analysis

決定族群

選取樣本

選擇變數

變數觀測

族群與樣本

  • What is a sample?

    • Sample (樣本):由族群中選取一小部份具有代表性的研究對象之集合, 為一個樣本。


Random sample

決定族群

選取樣本

選擇變數

變數觀測

Random Sample

  • 如何選取具有代表性的樣本, 是“抽樣方法”的研究範圍:

    • 非機率抽樣:研究者依主觀判斷選取的資料

    • 機率抽樣:

      • 假設所有可能的樣本為: S1, S2, …, Sk

      • 利用隨機的方式決定第 i 個樣本被選取的機率 P(Si),

        且P(S1) + P(S2) +…+ P(Sk) = 1

    • 機率抽樣得以避免主觀意識造成錯誤的結論。


Simple random sampling

決定族群

選取樣本

選擇變數

變數觀測

Simple Random Sampling

  • 簡單隨機抽樣 (simple random sampling, SRS)

    • 最廣泛應用的機率抽樣法

    • 每個樣本被選取的機率相同

      所有可能的樣本: S1, S2, …, Sk

      SRS 指每個樣本被選取的機率都 = 1/k


Srs example

SRS Example


Simple random sampling srs

Simple Random Sampling (SRS)

  • SRS with replacement (SRSWR) 置回抽樣:

    每次從有限母體抽出一個單位後再將其置回,故母體始終維持原狀,也因此整組樣本中每一個單位都是從維持原分佈之母體中隨機抽出,形成 “獨立且同分佈” (independently and identically distributed, iid) 的樣本。

  • SRS without replacement (SRSWOR) 不置回抽樣:

    每次從有限母體抽出一個單位後不再置回,故母體逐漸縮小,也因此整組樣本中每一個單位都是從不同分佈之母體中抽出,得到 “非i.i.d.” 樣本。

  • 無限大母體 (infinite population) 之情況,無論置回抽樣或不置回抽樣,所得樣本通常均被視為iid,這是因為不置回抽樣對於“母體逐漸縮小”之作用微乎其微所致 。


Srswor by r sample

決定族群

選取樣本

選擇變數

變數觀測

SRSWOR by R: sample

  • sample(N,n):由1至N中選取n個整數

    > sample(1000,10)

    [1] 549 817 413 38 280 600 321 990 341 580

  • sample(x,n):由x中選取其中n個元素

    > x = c(23,45,67,1,- 45,21,.9,4,-3,.25)

    > sample(x,5)

    [1] 21.00 -45.00 67.00 23.00 0.25


Srswr by r sample

決定族群

選取樣本

選擇變數

變數觀測

SRSWR by R: sample

  • sample(N,n,replace=T):由1至N中選取n個整數

    > sample(10,10,replace=T)

    [1] 9 2 6 8 10 9 8 8 2 6

  • sample(x,n,replace=T):由x中選取其中n個元素

    > x = c(23,45,67,1,- 45,21,.9,4,-3,.25)

    > sample(x,5,replace=T)

    [1] 1 1 23 -3 45


Other usage of sample

決定族群

選取樣本

選擇變數

變數觀測

Other Usage of sample

  • sample(n):將1至n的整數隨機排列

    > sample(10)

    [1] 8 2 1 3 5 10 7 9 4 6

  • sample(x):將x中的元素隨機排列

    > sample(x)

    [1] 4.00 23.00 45.00 -3.00 0.25 67.00 -45.00 21.00 [9] 1.00 0.90


Random variable

決定族群

選取樣本

選擇變數

變數觀測

Random Variable

  • 如何描述樣本?直接從樣本觀察或計算得來的測量值, 稱為隨機變數(random variable, RV), 通常以大寫的羅馬字母命名。

    • 觀察樣本本身的測量值: X, Y,…

    • 由樣本組合計算得來的測量值: , S2

      【Hint】LaTeX排版時, 隨機變數名稱需斜體。一般以“數學模式”輸入。例如: $X$


Random variable1

決定族群

選取樣本

選擇變數

變數觀測

Random Variable

  • 隨機變數類型:

    • 分立變數:

      • 類別變數: High/Median/Low, ABO blood types

      • 數值變數: 0/1, {0,1,…,10}, etc.

    • 連續變數:

      如稻米收穫量[0, ∞), 公司獲利(-∞, ∞), etc.

  • 不同類型的隨機變數有不同的統計分析方法


Random variable2

決定族群

選取樣本

選擇變數

變數觀測

Random Variable

  • 變數的選擇依各專業人員依研究目的判斷, 但相同研究目的可能選擇不同的變數:

    EX.某工廠欲研究渦輪機刀片生產品質, 可選擇的變數如下:

    1. 刀片是否在生產過程中變型? Yes/No (分立變數; 類別)

    2. 刀片表面光滑程度: 光滑/微量粗糙/大量粗糙 (分立變數; 類別)

    3. 每盒100片刀片中有碬疵的數目: {0, 1, …, 100} (分立變數; 數值)

    4. 刀片的延展程度: (0, ∞) (連續變數)

    5. 刀片放入渦輪機後的壽命長度: (0, ∞) (連續變數)


Random variable3

決定族群

選取樣本

選擇變數

變數觀測

Random Variable

  • 隨機變數包含“隨機”的概念:

    • 由於每次抽取的樣本可能不同, 取得不同樣本時觀測值自然也不盡相同, 造成變數度量上的差異, 因此衍生出隨機變數的準確度、精密度等概念。


Let s simulate

Let’s Simulate!

  • 以SRS為例說明準確度與精密度的意義:

    擲硬幣三次, 所有可能樣本如下:

    令 X = 三次中得到 H 的次數。

    如何用 R 模擬擲三次硬幣, 並計算得到 H 的次數?

    重複模擬 10 次, 將結果記錄在一個向量中。

3 min


Statistical computations and analysis

> x = sample(0:1,3,replace=T) # 1: Head

> sum(x)

> y = rep(NA,10)

> y[1] = sum( sample(0:1,3,replace=T) )

> y[2] = sum( sample(0:1,3,replace=T) )

> y = rep(NA,10)

> for (i in 1:10){

+ y[i] = sum( sample(0:1,3,replace=T) )

+ }

> y

[1] 1 2 1 2 2 2 3 1 3 2


Random variable4

決定族群

選取樣本

選擇變數

變數觀測

低精密度低準確度

低精密度高準確度

Random Variable

  • 精密度(Precision): 各樣本變數觀測值集中或分散的程度

  • 準確度(Accuracy): 各樣本變數觀測值靠近族群真值的程度

理想情況

高精密度高準確度

高精密度低準確度


Statistical computations and analysis

決定族群

選取樣本

選擇變數

變數觀測

變數觀測

  • 決定欲觀察隨機變數後, 即進行實際觀測或資料收集的工作; 實際量測的觀測數值常以小寫的羅馬字母命名, 如: x, y, , s2。

    EX. 隨機變數: X = 甘蔗產量

    觀測值: x1 = 45

    x2 = 66

    x3 = 54


Statistical computations and analysis

敘述統計


Statistical computations and analysis

如何有效敘述資料?

  • 樣本資料收集後非常凌亂, 但人類心靈所能領悟的複雜程度有限; 透過

    1. 表格 (tables)

    2. 圖型 (graphs)

    3. 摘要統計值 (summary statistics)

    將有助於研究者或他人對資料的了解。


Statistical computations and analysis

資訊不足!

定義研究

目標

資料收集

流程計畫

資料收集

資料整理

與分析

對研究目的

進行推論

決定新

研究方向

公佈結論

表格製作

繪圖

摘要統計值

Quit

資料整理


Statistical computations and analysis

表格製作

繪圖

摘要統計值

表格製作

  • 單一變數:

    • 分立變數: 次數分布表

    • 連續變數: (分組)次數分布表

  • 兩個以上變數:

    • 分立變數: 二維或高維關聯表


Statistical computations and analysis

表格製作

繪圖

摘要統計值

次數分布表


By r ugly

表格製作

繪圖

摘要統計值

次數分布表by R (ugly!)

> x = sample(3,20,replace=TRUE)

> x

[1] 1 3 1 3 2 2 3 3 3 2 1 2 2 1 3 1 1 1 1 3

> table(x)

x

1 2 3

8 5 7

> cumsum(table(x))

1 2 3

8 13 20

> table(x)/length(x)*100

x

1 2 3

40 25 35

> cumsum(table(x)/length(x)*100)

1 2 3

40 65 100

次數

累積次數

相對次數

相對累積次數


Statistical computations and analysis

表格製作

繪圖

摘要統計值

分組次數分布表


By r ugly1

> x = rnorm(30)

> my.table = hist(x,plot=FALSE)

> summary(my.table)

Length Class Mode

breaks 5 -none- numeric

counts 4 -none- numeric

intensities 4 -none- numeric

density 4 -none- numeric

mids 4 -none- numeric

xname 1 -none- character

equidist 1 -none- logical

> my.table

$breaks

[1] -3 -2 -1 0 1 2 3 4

$counts

[1] 1 4 15 6 2 1 1

$mids

[1] -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5

表格製作

繪圖

摘要統計值

分組次數分布表by R (ugly!)

組界

次數

組中值


By r ugly2

表格製作

繪圖

摘要統計值

分組次數分布表by R (ugly!)

> t = my.table$counts

> t

[1] 1 4 15 6 2 1 1

> cumsum(t)

[1] 1 5 20 26 28 29 30

> t/sum(t)*100

[1] 3.333333 13.333333 50.000000 20.000000 6.666667

[6] 3.333333 3.333333

> cumsum(t/sum(t)*100)

[1] 3.333333 16.666667 66.666667 86.666667 93.333333

[6] 96.666667 100.000000

次數

累積次數

相對次數

相對累積次數


Statistical computations and analysis

表格製作

繪圖

摘要統計值

二維關聯表

> x <- sample(c("H","M","L"),20,T)

> y <- sample(c("A","B","C"),20,T)

> tt <- table(x,y)

> prop.table(tt)

> margin.table(tt,1)

> margin.table(tt,2)


Statistical computations and analysis

高維關聯表實例

> help(ftable)

## Start with a contingency table.

> ftable(Titanic, row.vars = 1:3)

> ftable(Titanic, row.vars = 1:2, col.vars = "Survived")

> ftable(Titanic, row.vars = 2:1, col.vars = "Survived")


Statistical computations and analysis

表格製作

繪圖

摘要統計值

繪圖

  • 單一變數:

    • 類別變數: 長條圖(bar)、圓形圖(pie)

    • 數值變數: 莖葉圖(stem-and-leaf) 、直方圖(histogram) 、盒鬚圖(box plot) 、多邊圖(polygon) 、累計次數多邊圖

  • 成對變數:

    • 兩數值變數: 散佈圖 (scatter plot)

    • 其中之一為類別變數: side-by-side plot (bar, stem-and-leaf, histogram, etc)


Statistical computations and analysis

表格製作

繪圖

摘要統計值

類別變數圖

  • 長條圖

    > x = sample(LETTERS[1:3], 20, T)

    > x

    [1] "A" "B" "B" "C" "C" "C" "B" "C" "A" "A"

    [11] "A" "C" "C" "A" "C" "C" "C" "C" "A" "B"

    > plot(factor(x))

    > barplot(table(x))

  • 圓型圖

    > pie(table(x))


Statistical computations and analysis

類別變數圖

圓型圖

長條圖


Statistical computations and analysis

表格製作

繪圖

摘要統計值

數值變數圖

> x = rnorm(100)

  • 莖葉圖 (stem-and-leaf plot)

    > stem(x)

  • 直方圖 (histogram)

    > hist(x)

  • 盒鬚圖 (box plot)

    > boxplot(x)

  • 多邊圖 (polygon)

    > tt <- hist(x)

    > lines(tt$mids,tt$counts)

  • 累計次數多邊圖

    > plot(tt$mids,cumsum(tt$counts),type=“b”)


Statistical computations and analysis

數值變數圖


Statistical computations and analysis

表格製作

繪圖

摘要統計值

其它圖型

  • 散布圖 (scatter plot)

    > x <- rnorm(100)

    > y <- x + rnorm(100,0,0.5)

    > plot(x,y)

  • 平行盒鬚圖(side-by-side box plot)

    > x <- sample(c(“A”,”B”),100,T)

    > y <- rnorm(100)

    > boxplot(y ~ factor(x), ylab=“y”)


Statistical computations and analysis

其它圖型

平行盒鬚圖

散布圖


Save the graphics 1

表格製作

繪圖

摘要統計值

Save the Graphics (1)

方法一:

> postscript (“filename.ps”)

…(畫圖指令)

> dev.off()

EX. > postscript(“d:/statcomp/homework/hist1.ps”)

> x <- rnorm(100)

> y <- x + rnorm(100,0,0.5)

> plot(x,y)

> abline(0,1)

> dev.off()


Save the graphics 2

表格製作

繪圖

摘要統計值

Save the Graphics (2)

方法二: 在 R 的 “圖型視窗” 上按滑鼠右鍵, 選擇 “save as postscript”


Save the graphics

Save the Graphics

  • 方法一與方法二的差異:

    • 方法一有較高的解析度, 適合用於插入文件。

    • 方法二儲存結果與圖型視窗顯示完全相同。


Include graphics in latex

表格製作

繪圖

摘要統計值

include graphics in LaTeX

  • 利用方法一存檔的直方圖加入LaTeX文件中

    \documentclass{article}

    \usepackage{graphicx}

    \begin{document}

    \noindent

    我們來測試看看圖型放入文件中的樣子。\\

    \includegraphics[width=6cm,height=8cm,angle=270]{d:/statcomp/homework/hist1.ps}

    \end{document}


Include graphics in latex1

表格製作

繪圖

摘要統計值

include graphics in LaTeX

  • 注意事項

    • 圖內的文字標號清晰可見 => plot選項

    • 圖與其標題需能有效提供資訊: 圖型大小、標題、圖例、縱橫軸標示…等。


Statistical computations and analysis

表格製作

繪圖

摘要統計值

R的圖型控制指令

EX. par(mai=c(1,1,1,0))

plot(x,y,

xlab=“My X”, ylab=“My Y”,

main=“This is My First Graph”,

pch=16, cex.lab=2, cex.axis=2, cex.main=2)

abline(0,1,lwd=3,col=2)


Statistical computations and analysis

表格製作

繪圖

摘要統計值

圖形範例

lec3_2.ctx


Statistical computations and analysis

中心位置測定值:

平均值: mean(x)

中位數: median(x)

百分位數: quantile(x,p)

眾數: ??

> tt <- table(x)

> names(tt)[which.max(tt)]

> my.mode <- function(x){

+ tt <- table(x)

+ return(names(tt)[which.max(tt)])

+ }

>

分散度測定值:

變方: var(s)

標準偏差: sd(x)

全距: diff(range(x))

四分位距:

diff(quantile(x,c(0.25,0.75))

表格製作

繪圖

摘要統計值

摘要統計值


Statistical computations and analysis

如何說故事?

  • 最重要的不是造出一個又一個的圖、計算出各式各樣的摘要統計值, 而是如何說故事!

    • 對稱性?

    • 模度?

    • 極端值?

    • 選用何種摘要統計值較適當?

    • 如何以各領域的語言描述結果?


Symmetry

對稱性 (Symmetry)

  • 將族群分佈居中分為兩半, 若兩半互為鏡像, 則稱此為對稱 (symmetric); 反之, 稱為不對稱 (asymmetric) 或偏斜 (skewed) 。

  • 偏斜性 (skewness):

偏左分佈 (skew to the left):

尾部在左, 主峰在右

偏右分佈 (skew to the left):

尾部在右, 主峰在左


Modality

Modality 模度

  • Mode (眾數) 指資料分佈的高峰, 代表資料在此處發生頻率大。

  • 根據高峰的數目, 可將分佈區分為

    • unimodal 單模

    • bimodal 雙模

    • multimodal 多模

  • 若分佈有兩個以上的高峰 (bimodal or multimodal), 則兩峰之間的區域稱為 gap。


Outlier

Outlier 極端值

outlier(s): observations that are greater than UQ+1.5*IQD or less than LQ-1.5*IQD

The largest observation that is smaller than UQ+1.5*IQD

Upper Quantile (UQ)

IQD = UQ-LQ

Median

Lower Quantile (LQ)

The smallest observation that is greater than LQ-1.5*IQD


  • Login