640 likes | 903 Views
第四章. 離散型隨機變數. 4.1 隨機變數. 4.2 離散型隨機變數的機率分布. 4.3 期望值. 4.4 二項分布. 4.5 超幾何分布. 4.6 卜瓦松分布. 4.7 隨機號碼表. 4.1 隨機變數. 定義 : 隨機變數 (random variable) 是一種函數對應,把樣本空間中每一個樣本點對應到一個數。. 我們常會遇到的一類隨機變數是計數的。比如,快開學時,很多老師會想知道自己所要教的選修課程修課人數有多少;在便利商店打工的同學,會關心值班時段內總共需要服務多少位顧客。這類隨機變數的可能
E N D
第四章 離散型隨機變數
4.1隨機變數 4.2離散型隨機變數的機率分布 4.3期望值 4.4二項分布 4.5超幾何分布 4.6卜瓦松分布 4.7隨機號碼表
4.1隨機變數 定義 : 隨機變數(random variable) 是一種函數對應,把樣本空間中每一個樣本點對應到一個數。 我們常會遇到的一類隨機變數是計數的。比如,快開學時,很多老師會想知道自己所要教的選修課程修課人數有多少;在便利商店打工的同學,會關心值班時段內總共需要服務多少位顧客。這類隨機變數的可能 值,都是非負整數,非負整數0、1、2、…當中的任兩個數之間都有「間隔」,這類隨機變數叫做離散型隨機變數( 也有人稱間斷隨機變數)。
4.1隨機變數 另一種隨機變數的可能值會連起來,沒有間隔,因此不能用一個個單獨的值代表,而必須用區間表示,這叫做連續型隨機變數。 比如當石門水庫的水位從230 公尺上升到240 公尺時,一定必須經過230 公尺和240 公尺之間的所有水位,不可能從230 公尺忽然跳到231 公尺、再跳到232 公尺、…等等。 所以水庫水位的可能值,必須表示成閉區間 [a, b],其中a 是最低可能水位,b 是最高可能水位。
4.1隨機變數 離散型隨機變數會考慮單獨一點的機率,連續型隨機變數則只考慮落在區間的機率,因為任何單獨一點的機率都是0。
4.2離散型隨機變數的機率分布 對任何隨機變數,我們最關心的應該就是它的機率分布。隨機變數的機率分布包括可能值有哪些,以及這些可能值發生的機率各是多少;表達的方式不只一種,只要涵蓋以上兩種訊息即可。有一種最常使用的表達方式叫做機率函數,也可稱機率密度函數。 定義 : 設X 為離散型隨機變數,其機率函數(probability function, p.f.) 定義為 p(x) = P[X = x]
4.2離散型隨機變數的機率分布 機率函數也可稱作機率密度函數(probability density function, p.d.f.)。 有些教科書把這兩個專有名詞分得很清楚:「機率函數」用在離散型隨機變數,「機率密度函數」用在連續型隨機變數;有些教科書卻一律統稱「機率密度函數」。 符號 Σ p (x) 的意義,是把 p(x) 對所有的 x 加總,但是對於 p(x) = 0 的那些 x,加不加則沒有差別,所以,在計算 Σ p( x) 時,只要考慮使 p(x) > 0的那些 x 即可。 x x
4.2離散型隨機變數的機率分布 例 4.2-1 連續擲一枚均勻硬幣三次,令X 代表擲出之正面總數,試求X 之機率分布。 X 的可能值有0, 1, 2, 3,X 之機率分布為
4.2離散型隨機變數的機率分布 例 4.2-1 連續擲一枚均勻硬幣三次,令X 代表擲出之正面總數,試求X 之機率分布。 如果題目要求的是「X 的機率函數」,則可以這樣表示 或者也可以列表
4.2離散型隨機變數的機率分布 例 4.2-1 連續擲一枚均勻硬幣三次,令X 代表擲出之正面總數,試求X 之機率函數。 還可以用圖形表示,表示方法是先畫出數線,並標示出X 的可能值0、1、2、3,然後在0、1、2、3 上方畫鉛垂線,鉛垂線的高度代表 機率值,如圖所示: 機率函數圖
4.2離散型隨機變數的機率分布 例 4.2-2 袋中有材質相同、大小相同的6 顆球,其中4 顆紅色、2 顆白色。若隨意取出3 顆,且取出不放回,令X 代表3 顆中的紅球個數,(a) 試求 X 的機率函數,(b) 驗證機率函數必須滿足的兩個條件。 這樣寫的時候,隱含在內的意思是:對於1, 2, 3 以外的x 值,p(x) 都等於0。 請注意,x 值從1 開始而不是從0 開始,因為白球總共只有2 顆,所以抽出的3 顆球當中,紅球至少會有1 顆。
4.2離散型隨機變數的機率分布 例 4.2-2 袋中有材質相同、大小相同的6 顆球,其中4 顆紅色、2 顆白色。若隨意取出3 顆,且取出不放回,令X 代表3 顆中的紅球個數,(b) 驗證機率函數必須滿足的兩個條件。 (b) p(x) ≥ 0明顯對所有x成立,因為p(x) 是機率。其次,
4.2離散型隨機變數的機率分布 例 4.2-3 便利商店因週年慶而提供折扣優惠,只要消費滿88 元就可參加抽獎,從紙盒中抽號碼球來決定折扣比例。假設共有12 顆號碼球,其中寫著6 折和7 折的各有1 顆、8 折2 顆、9 折3 顆、95 折5 顆。小胖買了100 元的東西,令X 代表他實際需要付的金額( 元),試求X的機率函數。
4.3期望值 定義 若離散型隨機變數X 的機率函數為p(x),則X 的期望值(expectedvalue, expectation 或 mean) 為
4.3期望值 例 4.3-1 ( 續例4.2-3) 試求小胖實際需要付的金額( 元) 之期望值。 根據例4.2-3 的p(x) 可得X 的期望值為
4.3期望值 例 4.3-2 如果某次小考老師全部都出單選題,總共20 題、每題有5 個選項,答對一題可得5 分。若要使完全瞎猜的同學得分期望值為0,答錯一題應該倒扣幾分?
4.3期望值 以下定義隨機變數函數的期望值。 定義 若離散型隨機變數X 的機率函數為p(x),而g 為一函數,則g(X ) 仍是離散型隨機變數,其期望值為
4.3期望值 例 4.3-3 設有一遊戲規則如下:參加者可擲一均勻硬幣三次,然後可獲得不同金額的獎金,獎金等於正面數的平方再加上1( 以「元」為單位),而每玩一次要先繳4 元。計算玩此項遊戲一次所得金額之期望值,以判斷此遊戲是否公平。
4.3期望值 例 4.3-3 解 令X 代表擲硬幣三次後得到之正面總數,則玩此項遊戲一次所得金額為 g(X ) = X +1。若g(X) 之期望值等於4(元),則此項遊戲為公平的。 X 之機率分布為 2 如果玩此項遊戲很多次,則長期平均起來,玩一次可得4 元,所以玩一次先繳4 元是公平的。
4.3期望值 以上所列公式可以推廣應用到更多項相加的情況, 例如
4.3期望值 例 4.3-4 ( 續例4.3-3) 同樣的遊戲,如果獎金金額改為h(X ) = 2- 3X +1,X代表正面總數,則玩此項遊戲一次所得金額的期望值是多少?
4.3期望值 2 假設X 為離散型隨機變數,μ = E(X ),則E[(X -μ ) ]提供了X 散布情況的訊息,X 的可能值散布得離μ 愈遠,這個值就愈大,這叫做X 的變異數。 定義 隨機變數X的變異數(variance) 為 以上定義對離散型隨機變數和連續型隨機變數都適用。要計算變異數時,亦可利用以下等式: 標準差(standard deviation)為
4.3期望值 例 4.3-5 設X 為離散型隨機變數,機率函數如下,試求X 之變異數及標準差: 變異數可以用兩種方式計算,我們先算出X 之期望值: 方法二 : 方法一 :
4.3期望值 例 4.3-7 ( 續例4.3-5) 設X 為離散型隨機變數,機率函數如下,試求2X – 3之變異數及標準差:
4.3期望值 變異數有以下性質: 1. 因為(X -μ ) ≥ 0,所以變異數σ = E[(X -μ ) ]的值必定是非負的。 2. 若σ = E[(X -μ ) ] = 0,則代表X 的值沒有任何分散的情況,也就是,X 等於常數,有人稱這種隨機變數叫做退化的隨機變數(degenerate random variable)。嚴格說來,這樣的X 已不夠資格叫做隨機變數了,因為它的值永遠都一樣,毫無變化。 2 2 2 2 2
4.4二項分布 隨機變數X 若符合以下描述,即稱為二項隨機變數(binomial randomvariable),其分布稱為二項分布(binomial distribution),參數為n 及p,以符號X ~ B(n, p) 表示: 1. 同一隨機試驗重複做n次。 2. 每一次試驗的結果只有兩種可能:成功(S) 或失敗(F)。 3. 每一次試驗的成功機率相同,用p 代表。 4. 各次試驗之間相互獨立。 5. X 等於n 次試驗的成功總次數。
4.4二項分布 以上試驗若只做一次,叫做伯努利試驗(Bernoulli trial)。此時,若令X 等於試驗的成功次數,則X 的可能值只有0 或1( 結果得到「成功」,則X = 1,否則X = 0),我們稱X 為伯努利隨機變數,參數為p = P(X = 1)。二項隨機變數可視為n 項互相獨立、參數相同的伯努利隨機變數的和。
4.4二項分布 例 4.4-1 盒子裡裝著1 顆白球和2 顆紅球。若從盒子中隨意取出一球,記錄顏色後放回,重複執行5 次,則5 次中紅球正好出現3 次的機率是多少?
4.4二項分布 例 4.4-1 每一次取球,結果只有紅球或白球兩種可能。因為是取出放回,前後各次結果之間不會彼此影響,所以互相獨立,且每次取得紅球的機率都是2/3。若令X 代表5 次中紅球出現的次數,則X 為二項隨機變數,且我們想要計算P(X = 3)。
4.4二項分布 例 4.4-1 先考慮紅球以特定次序出現的情況。若紅球出現在前三次,即「紅紅紅白白」的狀況,機率是 若是「紅紅白紅白」的狀況,則機率是
4.4二項分布 例 4.4-1 觀察一下就會發現,無論出現的次序如何,只要是「3 紅2 白」,機率都是 ,所以只要知道「3 紅2 白」的出現次序有多少種,就有答案了。選擇「3 紅2 白」的出現次序,等於在5 個位置中選出3 個位置放紅球、剩下的放白球,所以共有 種方法。
4.4二項分布 二項分布的應用非常廣。例如,品管工程師會關心瑕疵品的比例是否過高,因為產品數量太大,通常只能抽驗。嚴格來說,抽驗產品屬於取出不放回形式,前後結果之間不獨立,然而在產品總數量極大,抽出檢查的件數相對來說很小時,取出不放回和取出放回差別不大,可視為前後結果互相獨立。在此假設下,若從生產線上隨機抽出若干件產品來檢驗,則瑕疵品的總件數可視為符合二項分布。
4.4二項分布 例 4.4-2 某次統計學小考,老師出了10 題單選題,每題有4 個選項。小翰完全沒讀書,每一題都是瞎猜,試求他(a) 恰好答對5 題的機率;(b) 至少答對6 題的機率。答案用式子表示即可,不須計算。
4.4二項分布 例 4.4-3 ( 續例4.4-2) 利用二項機率分布表,求算例4.4-2 的答案。 (a) 因為表中所列出者都是X ≤ x 形式的機率,所以我們必須把 P(X = 5)表示成可以查表的形式,即 P(X = 5) = P(X ≤ 5) - P(X ≤ 4) 從表2 的二項機率分布表,n = 10,p = 0.25,可查到 P(X ≤ 5) = 0.9803及P(X ≤ 4) = 0.9219,所以 P(X = 5) = P(X ≤ 5) - P(X ≤ 4) = 0.9803- 0.9219 = 0.0584 (b) P(X ≥ 6) =1- P(X ≤ 5) =1- 0.9803 = 0.0197 如果沒有倒扣,則答對6 題以上會及格;但是全部瞎猜的話,及 格的機率還不到2%。
4.4二項分布 二項分布的期望值和變異數都有簡單的公式可以計算:
4.4二項分布 例 4.4-5 每期統一發票收執聯末三位數號碼與頭獎中獎號碼末三位相同者,可得六獎,獎金200 元。如果某期統一發票共開出三組頭獎號碼( 三組的末三位號碼都不相同),阿邦和家人共蒐集了該期200 張發票,則他們會中該期發票六獎的發票張數之期望值會是多少?
4.4二項分布 例 4.4-6 小林和小李常在空閒時相約練習投籃,經過長時間的觀察發現,小林在罰球線的命中率是70%,小李只有50%。利用二項分布公式計算罰球60 次時二人分別進球數的期望值和標準差;兩人進球數的變化範圍何者比較大?
4.5超幾何分布 總共有N 個物件、分成兩類,其中第一類有M件、第二類有N -M 件,從N件中任意抽出n件,取出不放回,我們關心的是所抽出n件當中,第一類恰有x件的機率。若令X代表在上述架構下,所抽出n件中第一類的件數,X就叫做超幾何隨機變數,參數為N、M、n,其機率函數如下: 符號max(a, b),代表a, b 中較大的數;符號min(a, b),則代表a, b中較小的數。x 的範圍看起來很複雜,實際上觀念卻很簡單,我們用例子做說明。
4.5超幾何分布 例 4.5-1 容器中有3 顆紅球、5 顆白球,從中任取4 顆,取出不放回。令X 代表4 顆中紅球的顆數,試寫出X 的機率函數。 4 顆中紅球的顆數,可能值包括0、1、2、3、4。但是紅球總共只有3 顆,抽出的4 顆中,頂多只可能有3 顆紅球,所以 本題中n = 4,M = 3,min(4, 3) = 3,所以x 的最大可能值是3。
4.5超幾何分布 和上一個例子對照起來,現在紅球數夠多,所以抽出的4 顆球,有可能全是紅球;也就是,紅球數可能是0、1、2、3、4;但是現在白球卻不夠多。如果抽出的4 顆中沒有紅球的話,則白球必須有4 顆,然而白球只有3 顆,所以紅球至少必須有1 顆。對照公式中的範圍, max(0, n - (N -M)) = max(0, 4 - (9 - 6)) = max(0,1) =1 所以 例 4.5-2 容器中有6 顆紅球、3 顆白球,從中任取4 顆,取出不放回。令X 代表4 顆中紅球的顆數,試寫出X 的機率函數。
4.5超幾何分布 在此種認知下,超幾何隨機變數的機率函數也可這樣表示:
4.5超幾何分布 超幾何隨機變數的期望值和變異數公式如下:
4.5超幾何分布 例 4.5-3 某選修課有15 位同學修習,其中四年級4 位、三年級11 位。某次上課,老師以隨機抽座號的方式任意選出5 位同學上台做報告。令X代表5 位同學中的四年級同學人數,試求(a) X 的機率函數;(b) X 的 期望值和變異數。
4.5超幾何分布 例 4.5-3
4.5超幾何分布 例 4.5-4 某百貨公司週年慶時把2000 件過季T 恤放在花車用超低價促銷,其中有600 件略有瑕疵。阿花很勇猛的隨便抓了10 件,試求10 件T恤中,瑕疵品不超過2 件的機率。
4.5超幾何分布 例 4.5-4 2000 件T 恤中600 件略有瑕疵、1400 件正常, 從中隨意抓出10件,若令X 代表10 件中有瑕疵的件數,則X 是超幾何隨機變數,參數N = 2000、M = 600、n = 10。 因為數字太大了, 組合數很不好算。然而,N = 2000 很大但n =10 卻很小,因此可以利用二項分布來求近似機率,參數n = 10、 利用計算機可以很容易地算出答案。或者直接查二項分布表,可得機率為0.3828。
4.6卜瓦松分布 一大張壁紙上的瑕疵數,某網站在某時段十分鐘之內的上網瀏覽人數,或者某路段一個月之內的車禍數,這些都屬於「計次」型的離散變數。雖然計次的對象不同,但這類變數常符合某些共同性質,且根據這些 性質可以導出一族特定的分布,叫做卜瓦松分布(Poisson distribution),它有一個參數λ ,為特定「範圍」內的平均發生次數;此處「範圍」做廣義解釋,有可能是一段時間、或一個區域…等等。
4.6卜瓦松分布 例 4.6-1 假設秘書張小姐所打的文件,平均每一頁有0.5 個錯。某天,她替上司打了一份12 頁的報告。假設錯誤數符合卜瓦松分布,試求該份報告當中 (a) 恰好有2 個錯的機率;(b) 至少有4 個錯的機率;(c) 完全沒有錯誤的機率。
4.6卜瓦松分布 例 4.6-1 若令X 代表12 頁當中的錯誤數目,因為每一頁平均有0.5 個錯,12頁平均就有12(0.5) = 6 個錯,所以l = 6。
4.6卜瓦松分布 例 4.6-2 假設某眼科診所在上班日白天( 早上9 點到下午5 點) 的求診人數符合卜瓦松分布,平均每小時3 位病人。令X 代表某個上班日從10:00到11:12 的求診人數,求(a) X 的期望值和變異數(b) P(X ≥ 3) (a) 從10:00 到11:12 中間有一小時12 分鐘,也就是1.2 小時,所以這段時間的平均求診人數是 λ = 3.1.2 = 3.6 X 的期望值和變異數都等於3.6。 (b) P(X ≥ 3) = 1 - P(X ≤ 2) = 1 - 0.3027 = 0.6973