430 likes | 668 Views
統計應用軟體 Statistical Computations and Analysis. Lecture 4: Probability and Distributions. Outline. 1. 隨機試驗與機率分布 2. 常見的分立機率分布 二項分布 卜瓦松分布 3. 常見的連續機率分布 常態分布 其它分布 : 卡方分布 , t 分布 , F 分布. 隨機試驗與機率分布. 機率的起源. 機率與機率分布的起源 , 從賭博開始 ! 究竟哪種玩法贏面較大 ? 若是我們能長時間觀察賭局的結果 , 說不定能歸納出規律 !
E N D
統計應用軟體Statistical Computations and Analysis Lecture 4: Probability and Distributions
Outline 1. 隨機試驗與機率分布 2. 常見的分立機率分布 • 二項分布 • 卜瓦松分布 3. 常見的連續機率分布 • 常態分布 • 其它分布: 卡方分布, t分布, F分布
機率的起源 • 機率與機率分布的起源, 從賭博開始! 究竟哪種玩法贏面較大? 若是我們能長時間觀察賭局的結果, 說不定能歸納出規律! • 隨機試驗(Random Experiment)即是觀察這許多獨立事件的過程。藉由隨機試驗, 可以歸納出所有可能結果發生的機率為何, 進而決定“勝算”大小!
隨機試驗 • 歸納出事件所有可能結果發生的機率為何: 樣本空間 = {所有可能結果} Oi = 第 i 個可能結果
隨機試驗 例 擲一銅板: 樣本空間 = {正, 反} 擲一銅板的隨機試驗: 反正反正正反反正 … 擲一個骰子: 樣本空間 = {1, 2, 3, 4, 5, 6} 擲一銅板的隨機試驗: 4 4 6 1 3 3 5 1 … 擲兩個骰子: 樣本空間 = ? 例 練習
基本事件機率 • 當試驗次數增多時, Oi出現的比例會趨近某一定值, 稱為Oi試驗結果的(基本事件)機率, 記為 P(Oi) 例:擲一公平的銅板5次: HHHTH 正: 0.8 反: 0.2 擲一公平的銅板20次: THHTTHTHHHHTHTTTTTTH正: 0.45 反: 0.55 擲一公平的銅板1000次: THTHHTTTHT…正: 0.49 反: 0.51
決定隨機變數 Reminder • 機率與統計名詞比較:
隨機試驗 與 隨機變數 • 隨機變數: (機率)隨機試驗觀察而來的一個數值結果 (統計)由樣本觀察而來的一個數值結果 • 隨機變數所有可能的值組成的分布, 即是此隨機變數的機率分布 (probability distribution)
例: 擲兩個骰子, 樣本空間 = ? 隨機試驗: (4,4), (4,6), (4,6), (1,3), (1,6), … 令 X = 兩個骰子所得數值和 X的機率分布如下: 或以直方圖表示:
機率分布 • 一旦知道隨機變數的機率分布為何, 就不用透過長時間一再重複的隨機試驗, 即有辦法對變數進行更多的描述: 上例: P(X > 9) = 3/36 + 2/36 + 1/36 = 1/6 E(X) = X 平均值= Σx P(x) = 7 V(X) = X 變方= Σ(x – E(X))2 P(x) = 5.8333
機率分布的分類 • Recall:變數分為兩類 • 分立變數 • 連續變數 • 分立變數的機率分布稱為分立機率分布 連緒變數的機率分布稱為連續機率分布
常見的分立機率分布 Bionomial Distribution 二項分布 Poisson Distribution 卜瓦松分布
二項分布(Binomial distribution) • 起源:由伯努利 (J. Bernoulli) 發現, 是為解釋賭博 而產生的有史以來第一個機率分布 • 必須是只有兩種可能結果的隨機試驗: 樣本空間 = {成功(S), 失敗(F)} 擲硬幣:正,反 種子發芽:發芽,不發芽 小孩性別:男,女 殺蟲劑成效:死亡,存活 政策:贊成;反對 進入商店:購買;不購買 一般:成功(S);失敗(F)
二項分布(Binomial distribution) 樣本空間= {成功(S), 失敗(F)} P(S) = p, P(F) = 1 – p 隨機變數: X = 在n次試驗中成功的次數 例: 根據過去經驗一個顧客進入某一家商店會購買商品的機率為0.4(40%),請問三位顧客中購買商品之顧客數? 隨機變數X:購買商品 (成功) 的顧客 可能出現的值:0,1,2,3
二項分布(Binomial distribution) • 問題特性: 1.本試驗包括三個相同的試驗, 每個試驗是顧客購買商品 2.每試驗只有二種結果: 購買(S)或不購買(F) 3.每一個顧客買的機率均為0.4; 不買的機率均為0.6 4.每一個顧客均獨立購買商品(不受他人影響) • 樣本空間:
二項分布(Binomial distribution) 1. 試驗包括n個相同小試驗 2. 每個小試驗包括二個結果成功(S)或失敗(F) 3. 成功機率為p,失敗機率為q=1-p 4. 小試驗間為互相獨立 符合以上條件者稱為伯努利試驗。 令伯努利試驗中成功的次數為隨機變數, 其分布即為二項分布, 記為 B(n,p), X 的機率分布可表為:
根據過去經驗一個顧客進入某一家商店會購買商品的機率為0.4,觀查3位顧客:根據過去經驗一個顧客進入某一家商店會購買商品的機率為0.4,觀查3位顧客: • 沒有人購買商品的機率? P(X=0) = • 至少有一位顧客購買商品的機率? P(X≧1) = P(X=1) + P(X=2) + P(X=3) = 1 – P(X=0) = 0.784 • 平均每三位約有多少顧客消費? E(X) = np = 1.2
利用R求得二項分布機率值 • 以下四個 R functions 與二項分布有關: B(size, prob) dbinom(x, size, prob): 計算 P(X=x) pbinom(q, size, prob): 計算 P(X≦q) qbinom(p, size, prob): 計算 100p%百分位數 rbinom(n, size, prob): 產生 n 個 B(size,prob)的隨機變數
補充: 百分位數 • X 之機率分布為 P(x) ; 令 y為該分布的 100p% 百分位數, 則 y為 X所有可能數值之一, 且滿足: Example: > pbinom(0:3,3,0.3) [1] 0.343 0.784 0.973 1.000 > qbinom(0.8,3,0.3) [1] 2
根據過去經驗一個顧客進入某一家商店會購買商品的機率為0.4,觀查3位顧客:根據過去經驗一個顧客進入某一家商店會購買商品的機率為0.4,觀查3位顧客: • 沒有人購買商品的機率? P(X=0):dbinom(0,3,0.4)=0.216 • 至少有一位顧客購買商品的機率? P(X≧1) = 1 – P(X=0) = 1 – P(X≦0) = P(X>0): 1 – dbinom(0,3,0.4) = 1 – pbinom(0,3,0.4) • 至少有兩位顧客購買商品的機率? P(X≧2) = 1 – P(X≦1): 1 – pbinom(1,3,0.4) = 0.352
利用R求得二項分布機率值 練習:有一醫學試驗進行某新藥品對某疾病的治療效果,我們希望新藥品治癒率達90%,(無效率為10%)。今試驗20位病人: • Q1: 全部病人皆治癒的機會? • Q2: 最多有15位病人治癒之機率為多少? • Q3: 至少有18位病人?
卜瓦松分布(Poisson distribution) • 起源:當 B(n,p) 在 p → 0 n → ∞ 令λ= np (發生成功的平均次數), 持續觀查一連串的伯努利試驗, 發現得到成功次數的機率會漸趨於另一個機率分布:卜瓦松分布!
卜瓦松分布(Poisson distribution) • X = 觀察偶發事件(指發生機率很小的事件)一段固定時間, 得到成功的次數; 其分布為卜瓦松分布, 記為 Poisson(λ)
例:設在高速公路上平均每天有 5 次車禍發生,若 X 為某天 發生車禍之隨機變數,求下列各項機率: (a)沒有車禍發生 (b)少於或等於3次車禍 (c)多於3次車禍 高速公路來往車輛很多,平均一天發生λ=5次車禍應屬於 卜瓦松分布,故上述各項機率為:
利用R求得二項分布機率值 • 以下四個 R functions 與卜瓦松分布有關: Poisson(lambda) dpois(x, lambda): 計算 P(X=x) ppois(q, lambda): 計算 P(X≦q) qpois(p, lambda): 計算 100p% 百分位數 rpois(n, lambda): 產生n個 Poisson(lambda) 的隨機變數
例:設在高速公路上平均每天有 5 次車禍發生,若 X 為某天 發生車禍之隨機變數,求下列各項機率: (a)沒有車禍發生 (b)少於或等於3次車禍 (c)多於3次車禍 高速公路來往車輛很多,平均一天發生λ= 5 次車禍應屬於 卜瓦松分布,故上述各項機率為: (a) P(X = 0): dpois(0,5) = 0.006737947 (b) P(X ≦ 3):ppois(3,5) = 0.2650259 (c) P(X > 3): 1 – ppois(3,5) = 0.7349741
常見的連續機率分布 Normal Distribution 常態分布 其他連續機率分布: 卡方, F, t
常態分布(Normal distribution) • 起源:常態分布是為了解決二項分布計算上的困擾 18 世紀數學家為了計算 C(n,x) 非常傷腦筋, 尤其當 n 很大的時候; 當代數學家棣美弗 (Abraham de Moivre) 利用當時新發明的微積分來解決!
n = 2, p = 0.3 n = 20, p = 0.3 常態分布(Normal distribution) • 棣美弗發現 p = 0.5 之二項分布, 可用一個連續函數來描述, 此即為常態分布 • 即使 p ≠ 0.5, 當n 越來越大時, 也會近趨常態分布: if np≧5 and n(1-p) ≧5 source: “The Cartoon Guide to Statistics”
常態分布(Normal distribution) • 常態分布為對稱的鐘型分布, 記為 N(μ,σ2) E(X) = μ, V(X) = σ2 N(0,1)
x1 x2
常態分布(Normal distribution) • 當μ= 0, σ2 = 1, 特稱為標準常態分布。 • 標準化:減去平均值除以標準差
利用R求常態分布機率值 • 標準常態分布 N(0,1): dnorm(x): 計算 f(x) 值 (Note: 非P(x); P(x) = 0) pnorm(q): 計算 P(X≦q) qnorm(p): 計算100p% 百分位數 rnorm(n): 產生 n 個 N(0,1) 的隨機變數
利用R求常態分布機率值 • 常態分布 N(mean, sd2): dnorm(x,mean,sd): 計算 f(x) 值 pnorm(q,mean,sd): 計算 P(X≦q) qnorm(p,mean,sd): 計算 100p% 百分位數 rnorm(n,mean,sd): 產生 n 個 N(mean, sd2) 的隨機變數
例: 成人男性體重為常態分佈,其平均值μ= 60 公斤,標準偏差為σ= 5公斤 ⇒N(60,25)或 N(60,52) • Q1: 體重小於65公斤者佔全體成人男性之機率? • Q2:成人男性體重大於45公斤者之機率為多少? • Q3:成人男性體重介於55至62公斤者之機率為多少?
例:若某品牌汽車電瓶之壽命為常態分佈,其平均為60個月,標準偏差為6個月,廠商將定出一個時間點,在此時間內損壞之電瓶可免費換置,若只允許1%售出的電瓶可免費換置,求此時間點?例:若某品牌汽車電瓶之壽命為常態分佈,其平均為60個月,標準偏差為6個月,廠商將定出一個時間點,在此時間內損壞之電瓶可免費換置,若只允許1%售出的電瓶可免費換置,求此時間點? • 例: 某電子商品零售店其某品牌數位相機之每週銷售量為常態分佈其平均值為100與標準偏差為10,此零售店每週一進貨,為了要保證每週只有5%無貨的機會,零售店經理週一要進貨幾架此品牌的數位相機?
常態分布(Normal distribution) • 常態分布的重要性: • 許多生物與自然界特性之觀測值, 可用常態分布描述。 • 中央極限定理 (central limit theorem) Coming Soon!!
其它常見連續機率分布 • 卡方分布 (Chi-square distribution): • 記為 χ2 (υ), υ= 自由度 • 若Z ~ N(0,1), 則Z2 ~ χ2 (1) • 若Z1,…Zn ~ N(0,1), 則 Z12+…+Zn2 ~ χ2 (n) • t 分布 (t distribution): • 記為 t (υ), υ= 自由度 • 若Z ~ N(0,1), 且 W ~ χ2 (υ), 則 • F分布 (F distribution): • 記為 F(υ1, υ2), • 若 U ~ χ2 (υ1), V ~ χ2 (υ2), 則