580 likes | 960 Views
第六章. 抽樣分布. 6.1 什麼是抽樣分布. 6.2 取出放回和取出不放回. 6.3 隨機樣本的性質. 6.4 樣本平均數之抽樣分布. 6.5 中央極限定理. 6.6 連續型之修正. 6.7 樣本比例之抽樣分布. 6.8 t 分布. 6.1 什麼是抽樣分布.
E N D
第六章 抽樣分布
6.1什麼是抽樣分布 6.2取出放回和取出不放回 6.3隨機樣本的性質 6.4樣本平均數之抽樣分布 6.5中央極限定理 6.6連續型之修正 6.7樣本比例之抽樣分布 6.8t 分布
6.1什麼是抽樣分布 在第一章曾經討論過,用樣本比例來估計母體比例時,結果好不好主要是看樣本取得好不好;而要取得適當的樣本,必須用正確的抽樣方式,也就是隨機抽樣。隨機抽樣可以避免人為因素,選出客觀、有代表性的樣本。常用的隨機抽樣方式有許多種,其中最基本也最容易了解的一種,叫做簡單隨機抽樣,所抽出的樣本叫做簡單隨機樣本。大樂透開獎時從49個號碼球當中隨機抽出的6 個號碼( 不計入特別號),就可以視為一個簡單隨機樣本,因為任一組6 個號碼被抽中的機會都相同。
6.1什麼是抽樣分布 我們說用隨機樣本是「好」的估計方式,究竟好在哪裡呢?答案在於:從隨機樣本所得到的結果( 例如樣本比例),雖然會變來變去,但是並非毫無章法、亂變一通,而是會形成一定的「架構」;而這個架構會把母體比例p和樣本比例 之間的關係連結起來。我們用 來估計p 時,由於有這個架構,因此可以評估誤差的大小;對照起來,若不用隨機方式抽樣,則沒有 架構可以掌握,對於估計結果的好壞,完全沒有辦法評估。
6.1什麼是抽樣分布 樣本比例是一種統計量( 統計量是樣本的函數,抽樣之後就可以算出其值),統計量的機率分布因為是不斷抽樣的結果,另一個名稱是「抽樣分布」(sampling distribution)。
6.1什麼是抽樣分布 例 6.1-1 假定一個迷你班的5 個學生,某次考試成績如下:90、80、80、60、40。假設我們用隨機方式選出2 位同學,取出不放回,用X 代表2位同學的平均分數,求X 的抽樣分布。 因為只有5 個人,從裡面隨機選兩人只有10 種可能方法:用A、B、C、D、E 分別依序代表成績為90、80、80、60、40 的5 位同學的話,我們選出的可能結果就是AB、AC、AD、AE、BC、BD、BE、CD、CE、DE 這10 種組合,每種組合被抽中的機率相同,均為 。選中A 和B 的話, 的值是 85;選中C 和D, 就會等於70,依此類推,可得 值如下( 依照以上10 種組合列出的順序): 85、85、75、65、80、70、60、70、60、50
6.1什麼是抽樣分布 整理一下會發現, 的可能值有85、80、75、70、65、60、50 共7種,其中85、70、60 各出現2 次、其餘各出現1 次,因此 的抽樣分布如下: 很容易可算出全班平均是70 分;計算10 個X 值的平均,會得到 ,恰巧等於全班平均分數。其實,這是必然的結果:雖然隨機抽出兩位同學的平均分數當做全班平均分數的估計時,結果有很多種可能(85、75、…、50),但是所有這些估計值( 樣本平均數) 的平均,必定會等於全班的平均( 母體平均數),這叫做不偏性質,將在第七章討論。
6.1什麼是抽樣分布 例 6.1-2 假定一個迷你班的5 個學生,某次考試成績如下:90、80、80、60、40。假設我們用隨機方式選出2 位同學,取出放回,用X 代表2 位同學的平均分數,求X 的抽樣分布。 此例題和例6.1-1 的題目內容相同,只是將抽樣方式從取出不放回改為取出放回。因此,可能結果從 種增加到5.5 = 25種。 25 個X 值如下: 85、85、75、65、80、70、60、70、60、50、85、85、75、 65、80、70、60、70、60、50、90、80、80、60、40
6.2取出放回和取出不放回 例 6.2-1 計算例6.1-1 和例6.1-2 當中樣本平均數X 的變異數,並和母體變異數做比較。 取出不放回( 例6.1-1): 利用X 的機率分布(6.1-1),可得取出不放回的變異數為 只要是從母體當中抽取樣本出來平均,所得樣本平均數X 的分布情況,必定比母體的分布要「集中」,所以X 的變異數必定小於母體變異數。 兩個結果明顯不同,且取出不放回的變異數較小。
6.2取出放回和取出不放回 統計裡面很多性質都建立在「獨立」條件之上。有時雖然嚴格來說,事件之間並不符合獨立的條件,但是差別卻很小,此時也可視為獨立狀況來考慮,最合適的例子就是民意調查。 在抽樣做民意調查時,實際執行的過程,應該相當於取出不放回,因為同一個人不會被訪問兩次,如此狀況並不符合「互相獨立」的條件。但實際上只要母體比樣本大很多,取出不放回和取出放回的差別就非常小,即使執行取出不放回,也可以把前後結果視為互相獨立。舉例說明如下:
6.2取出放回和取出不放回 假設有10,000 個人,其中60% ( 即6000 人) 會用電腦,現在從母體當中依序抽出三人,則三人都會用電腦的機率是 這和取出放回的結果,0.6⋅0.6⋅0.6 = 0.216,是非常接近的。但是如果總共只有10 個人,其中60% ( 即6 人) 會用電腦,則依序抽出三人,該三人都會用電腦的機率,會等於
6.2取出放回和取出不放回 這就和取出放回的結果,0.6⋅0.6⋅0.6 = 0.216,相差很多了。比較一下會發現,癥結在於:分子和分母的數字都很大的時候,例如 ,分子和分母各減掉1 之後再相除,和原來的結果差別非常小;若是各減掉2 之後再相除,差別仍然非常小。所以,雖然前後結果之間並不獨立,但和獨立的情況很接近(0.21596 非常接近0.216);但是像 這樣分子和分母的數字都很小的情況,分子和分母再各減1 或各減2 之後相除,就和原來的結果有明顯差別。
6.2取出放回和取出不放回 還有一個會影響結果的因素是:上述例子中相乘的項數是否較多;也就是,所抽的樣本是否較大。如果從10,000 個人當中抽出1000 個人,而不是3 個人,再計算1000 個人都會用電腦的機率,則計算式中會有1000 項相乘,而其中最後一項會等於 和0.6就有明顯差距;它的前幾項只比這項略大一點點( 前一項是 再前一項是 ),也和0.6 有明顯差 距,相乘之後,整體結果就和獨立的結果相當不同了。
6.2取出放回和取出不放回 不過,「樣本大不大」其實是相對的,而不是絕對的,比如樣本大小若維持在1000,但是把母體人數改為1,000,000,則計算式中的最後一項會等於 又和0.6 很接近了。 綜合以上的討論可知,只要母體比樣本大很多的時候,即使樣本是用取出不放回的方式抽取,結果也和取出放回的結果差不多,因此抽取的各次結果之間可視為互相獨立。
6.3隨機樣本的性質 在統計問題裡面,母體通常都很大、很難掌握,因此才需要抽樣。樣本大小無論是幾十、幾百或幾千,和母體比較起來都偏小。所以,根據6.2 節的討論,即便通常抽樣都是取出不放回,仍然可以假設:前後抽取 的各次結果之間互相獨立;也就是說,X1,X2,…,Xn之間互相獨立。每一個Xi 的分布,和母體的分布又是什麼關係,我們用例子來說明。
6.3隨機樣本的性質 例 6.3-1 假設某一以理工為主的大學當中,文、理、工、商各學院學生佔全校的比例分別為20%、25%、40%、15%。若從全體學生當中隨意抽出一人,則他屬於每個學院的機率各是多少? 為了討論方便,我們用編號1、2、3、4 分別代表文、理、工、商各學院。 若用X 代表抽出的學生所屬學院之代號,則因為全體學生當中有20% 屬於文學院,所以該生屬於文學院的機率是0.2,即P(X = 1)= 0.2,依此類推,可知P(X = 2) = 0.25、P(X = 3) = 0.4、P(X = 4) =0.15。也就是說,從母體( 全體學生) 當中隨機抽出的一個樣本,其機率分布和母體相同。 綜合以上討論可得隨機樣本的性質如下: 設X1, X2 ,…, Xn為抽自某一母體的隨機樣本,則X1,X2,…,Xn之間互相獨立, 且每個 Xi 的機率分布, 和母體的機率分布相同。「X1,X2,…,Xn為抽自某一母體的隨機樣本」的說法,也可用以下描述代替:「 X1,X2,…,Xn為i.i.d.」,其中第一個i代表獨立(independent),接下來的i和d 代表分布相同(identically distributed)。
6.4樣本平均數之抽樣分布 要注意的是:應用上述公式1 計算期望值時,不需要假設X1, X2, …,Xn之間互相獨立,但是用公式2 計算變異數,就必須有互相獨立的條件。少了互相獨立的條件,代表X1, X2, …, Xn有些變數之間有關聯,所以其線性組合的變異數不僅和每個變數的變異數有關,還和有關聯的變數之間的相關性有關,所以公式會比較複雜。
6.4樣本平均數之抽樣分布 例 6.4-1 假設隨機變數X 和Y 互相獨立,E(X ) = 3、V(X ) = 4、E(Y ) = 7、V(Y )= 2,求3X - 2Y 之期望值和變異數。 E(3X - 2Y) = 3E(X ) -2E(Y) = -5 V (3X - 2Y) = 9V (X ) + 4V (Y) = 44
6.4樣本平均數之抽樣分布 現在可以利用公式,計算樣本平均數的期望值、變異數和標準差:
6.4樣本平均數之抽樣分布 X 的標準差常被稱作 X 的標準誤(standard error),我們用 X 估計µ時,可以用標準誤當作準確性的評估。用其他統計量估計母體參數時,也可考慮該統計量的 標準誤,所以一般定義如下: 定義 用一個統計量估計母體的任一參數時,統計量的標準誤,即為該統計量的標準差。
6.4樣本平均數之抽樣分布 例 6.4-2 假設某品牌某種零嘴隨手包的平均重量是30 公克,標準差1 公克。如果考慮從產品中隨意抽出25 包,並計算樣本平均數X ,則X 的平均數( 期望值) 和標準差各是多少? 根據公式:
6.4樣本平均數之抽樣分布 在6.1 節定義過,統計量的抽樣分布是指它的機率分布,所以X 的抽樣分布是指X 的所有可能值及這些值發生的機率。而這個分布和母體分布有密切的關係。 例 6.4-3 設母體1 = {60、70、80},母體2 = {40、50、80}。分別從母體1 和母體2 抽隨機樣本( 取出放回),n = 2,求樣本平均數的抽樣分布。
6.4樣本平均數之抽樣分布 從母體1 用取出放回方式隨意抽出兩個,再計算樣本平均數X 的值,經過整理之後可得 母體1 總共3 個點,所以它的分布可用圖6.4-1 表示:
6.4樣本平均數之抽樣分布 其次,考慮母體2,它的分布可用圖6.4-3 表示:
6.4樣本平均數之抽樣分布 從母體2 用取出放回方式隨意抽出兩個,再計算樣本平均數Y 的值,經過整理之後可得 比較圖6.4-2 和圖6.4-4 會發現,因為母體分布不一樣,所以樣本平均數的分布就不一樣。另外拿圖6.4-1 和圖6.4-2 比較,或者拿圖6.4-3 和圖6.4-4 比較都會發現:樣本平均數的分布,一定比它原來母體的分布更為靠中間集中。
6.5中央極限定理 例 6.5-1 實驗人員經長期研究發現,某種類的老鼠走完某迷宮所需時間,符合平均數為2 分鐘、標準差為0.4 分鐘的常態分布。今隨機選出這類老鼠5 隻,令其分別走迷宮並記錄時間,求5 隻老鼠走迷宮總共所需時間介於9 分鐘和11 分鐘之間的機率。 令X1, X2, …, X5 分別代表每隻老鼠走完迷宮所需時間,且令T = X1+ X2 + … + X5 代表5 隻老鼠走迷宮總共所需時間,則題目所求為P(9 < T <11)。定理6.5-1 告訴我們:樣本平均數X 的分布是平均數為µ = 2、變異數為 的常態分布,雖然沒有直接 告訴我們T 的分布,但是因為
6.5中央極限定理 對此定理有以下補充說明: 結論換個方式說也對: 在同樣的假設條件下, 如果n 夠大,則 的分布會接近平均數為nµ ,變異數為的常態分布;也就 4. 所謂「n 夠大」並沒有一定的標準,有的教科書建議適用中央極限定理的標準是n ≥ 25,有的教科書卻建議n ≥ 30。事實上,n 需要多大,和母體分布有很大的關係。在例6.4-2 當中我們看到,和母體分布比較起來,樣本平均的分布一定會往中間集中,n 愈大就愈集中( 所以n 夠大時會接近常態分布),但是集中的快慢就因母體分布的形狀而有所不同。 2. 定理6.5-1 的隨機樣本是抽自常態分布母體,此時不論n 是多少,樣本平均數X 的抽樣分布都是確實的常態分布;中央極限定理的隨機樣本是抽自任何分布的母體( 只要變異數存在),而樣本平均數X 的抽樣分布,是在n 夠大的時候,接近常態分布。 3. 中央極限定理對於樣本所來自的母體,幾乎沒有任何限制,唯一的條件是變異數存在;變異數存在的意思是說:它是個有限數,而絕大多數母體都符合這個條件。
6.5中央極限定理 5. 在4.4 節曾討論,當X1, X2, …, Xn為互相獨立的伯努利隨機變數, 參數p = P(Xi =1) 時, 的分布為二項分布B(n, p) ( 而任意符合 二項分布B(n, p) 的隨機變數,都也可視為n 項互相獨立的伯努利 隨機變數的和),因此根據中央極限定理, 的分布在n 夠大時 會接近常態分布;也就是說,n 夠大時,我們可以用常態分布來求 二項分布的近似機率。n 需要多大才合適呢?可以利用以下準則: 條件雖然有兩個: np≥ 5及n(1 - p) ≥ 5,實際上只要驗證其中之一就可以了。如果1- p ≥p,只要驗證np≥ 5 成立即可,因為此時n(1- p) ≥np≥ 5;反之,若p ≥1- p,則只要驗證n(1 - p) ≥ 5 成立,則必有np ≥ n(1- p) ≥ 5。
6.5中央極限定理 例 6.5-2 假設隨機變數X 的分布是二項分布B(n, p),而我們想要用常態分布來求有關X 的近似機率( 也就是應用中央極限定理)。當p 分別等於以下各個不同的值時,n 應該等於多少才合適? (a) p = 0.2;(b) p = 0.5;(c) p = 0.9。 (a) p = 0.2 < 0.8 =1- p,所以只要np= n.0.2 ≥ 5即可,即n ≥ 25。 (b) p = 0.5 =1- p,所以只要np= n ⋅0.5 ≥ 5即可,即n ≥10。 (c) p = 0.9 > 0.1 =1- p,所以必須n(1- p) = n.0.1 ≥ 5,即n ≥ 50時,適合應用中央極限定理。
6.5中央極限定理 所謂適用與否,其實是在規範利用常態分布來求二項分布近似機率時的誤差。符合適用條件時,可以預期誤差會相當小。 上述要求np≥ 5 及n(1 - p) ≥ 5 的條件,只是一種參考用的準則,也有學者建議要符合np≥ 10 及n(1 - p) ≥ 10 條件時,才適合用常態分布求二項分布之近似機率。當然條件較嚴格時,可以預期近似機率的誤差比較小。
6.5中央極限定理 例 6.5-3 假設某品牌有一種零嘴隨手包的平均重量是30 公克,標準差1 公克。如果從產品中隨機抽出25 包,利用中央極限定理,計算以下事件的近似機率: (a) 25 包的平均重量超過30.6 公克。 (b) 25 包的平均重量介於29.5 公克和30.5 公克之間。 (c) 25 包的總重量不到740 公克。
6.6連續型之修正 當X ~ B(10, 0.5) 時,若要用中央極限定理求P(6 ≤ X ≤ 7) 的近似機率時,應該先把區間兩端各延伸0.5 個單位,成為P(5.5≤X ≤ 7.5)之後,再利用常態分布來計算近似機率。這種0.5 個單位的調整,稱為連續型之修正(continuity correction)。P(6 ≤ X ≤ 7)的確實值和經過連續型修正之後所得近似機率的差別,可參考圖6.6-4:確實機率是深色長方形的面積,而近似機率是用深色粗線所框起部份的面積。
6.6連續型之修正 例 6.6-1 設隨機變數X ~ B(10, 0.5),用中央極限定理求P(6 ≤X ≤ 7)的近似機率,分別用兩種方式計算,並且和確實機率做比較:(a) 不用連續型之修正;(b) 要用連續型之修正。 比較算出的三項機率可以明顯看出:沒經過連續型修正的近似機率,和確實機率差很多;而經過連續型修正的結果,則很接近確實機率。
6.6連續型之修正 連續型修正還有一個作用,就是可以處理P(X = x) 類型的機率,我們用例子說明。 例 6.6-2 假設我們擲一枚均勻的硬幣10 次,用中央極限定理求事件「恰得5次正面」的近似機率,並和確實機率做比較。
6.6連續型之修正 若令X 代表10 次當中正面出現的次數,則X ~ B(10,0.5),和例6.6-1的條件相同,而現在要計算的是P(X = 5)。 若要用中央極限定理求近似機率,等於是把X 視為常態分布的隨機變數,因此不用計算就可知道P(X = 5) = 0,因為常態分布屬於連續型分布、任何單獨一點的機率都等於0。但是這個答案明顯不合 理;因為擲10 次硬幣時,頗有可能出現恰好5 個正面這種結果。而只要運用連續型修正,就可以解決問題了。 直接查二項分布表可得確實機率: P(X = 5) = P(X ≤ 5) - P(X ≤ 4) = 0.623- 0.377 = 0.246 兩者比較起來,可說近似機率的誤差相當小。
6.6連續型之修正 二項分布的可能值都是非負整數,所以若X 代表二項分布隨機變數的話,事件「X 小於8」和事件「X 小於或等於7.5」是完全相同的,因為前者代表X 的值可能是0, 1,…, 7,後者也完全相同。所以第二種修正方式的要點是:「加或減0.5 之後所得到的區間,其中所包含的非負整數,必須和原來區間所包含的完全相同」,舉例說明如下:
6.6連續型之修正 例 6.6-3 根據上述第二種方式,對以下機率式子做連續型之修正: (a) P(3 ≤ X ≤ 7)(b) P(3 ≤ X < 7)(c) P(3 < X ≤ 7)(d) P(X > 6) 現在來檢驗一下修正前後的兩個區間所包含的非負整數,「3 ≤X < 7」這個區間所包含的非負整數是: 3, 4, 5, 6, 7 「2.5 ≤ X ≤ 7.5」這個區間所包含的非負整數也是: 3, 4, 5, 6, 7 兩者完全相同,所以答案正確。 P(3 ≤ X ≤ 7) 如何決定3 應該改成2.5 或是3.5,可以這樣考慮:本來X 有可能等於3,如果把「3 ≤ X」改成「3.5 ≤ X」,則排除了X = 3 的可能性,所以應該是寫成「2.5 ≤ X」才正確;同理,「X ≤ 7」的部份應修正為「X ≤ 7.5」。所以,完整的修正是: P(3 ≤ X ≤ 7) = P(2.5 ≤ X ≤ 7.5)
6.6連續型之修正 (b) P(3 ≤ X < 7) 「3 ≤ X 」的部份和(a) 相同,所以應修正為「2.5 ≤ X」。「X < 7」則不包含7,所以應修正為「X < 6.5」,所以 P(3≤ X < 7) = P(2.5 ≤ X < 6.5) 檢驗一下區間中所包含的非負整數: 3 ≤ X < 7 包含的非負整數是:3, 4, 5, 6 2.5 ≤ X < 6.5 包含的非負整數也是:3, 4, 5, 6 所以答案正確。 同理可得: (c) P(3 < X ≤ 7) = P(3.5< X ≤ 7.5) = P(3.5 ≤ X ≤ 7.5) (d) P(X >6) = P(X >6.5) = P(X ≥ 6.5) 這裡如果要把 P(2.5 ≤X < 6.5) 寫成 P(2.5 ≤X ≤ 6.5) 也是可以的,因為X 不可能等於6.5,所以多加了一個等號沒有任何影響。
6.6連續型之修正 上述修正原則也可以用來處理P(X = 5)類型機率式的連續型修正。我們把P(X = 5)當中的5 分別加和減0.5 之後,會得到P(4.5 ≤X ≤ 5.5),「X = 5」只包含5 這個非負整數,「4.5 ≤ X ≤ 5.5」也是一樣,所以可知P(X = 5) = P(4.5 ≤X ≤ 5.5)是正確的修正。
6.7樣本比例之抽樣分布 假設母體當中,符合某特質的佔比例p,考慮從母體抽取隨機樣本,樣本大小是n,然後記錄樣本 中符合該特質的比例 ,則 是伯努利隨機變數,參數為p。
6.7樣本比例之抽樣分布 因為E(Xi) = p,V(Xi) = p(1 - p),所以根據中央極限定理,可得 的抽樣分布如下:
6.7樣本比例之抽樣分布 例 6.7-2 擲一顆平衡骰子180 次,求6 點出現的比例超過五分之一的機率。
6.7樣本比例之抽樣分布 例 6.7-3 假設一大批螺絲釘當中,瑕疵品佔比例p。今從中隨機抽檢100 枚,若其中瑕疵品比例不超過3%,則視為整批螺絲釘通過檢驗。假如整批的瑕疵品比例p 事實上等於5%,求其通過檢驗的機率。 也就是說,用「樣本當中的瑕疵品比例不超過3%」當作檢驗標準的話,如果整批貨的瑕疵品實際上佔5%,隨機抽檢100 枚時,大約有17.88% 的機率會通過檢驗。
6.8t 分布 定理6.5-1 告訴我們,若X1, X2 , ⋅⋅⋅, Xn為抽自某一常態分布 N(µ,)的隨機樣本,把標準化之後所得到的 ,它的抽樣分布是標準常態分布; 如果不知道σ是多少必須用估計量取代。通常我們會用樣本標準差 取代之後得到的 ,其分布不再是標準常態,而是屬於一族叫做t 分布(t distribution) 的分布。
6.8t 分布 t 分布的形狀,和常態分布很像,有以下性質: 1. t 分布的形狀和標準常態分布相當接近,也是對稱於0 的鐘型,但是t 分布的分散較廣。標準常態分布的變異數是1,t 分布的變異數卻會大於1。例如自由度為6 的t 分布,變異數等於1.5;而自由度為4的t 分布。變異數則等於2。 2. t 分布有一個參數叫做自由度(degrees of freedom,縮寫d.f.),是正整數。自由度小的t 分布分散比較廣,自由度變大,則分布會往中間靠攏。自由度愈變愈大,t 分布就會愈來愈接近標準常態分布,可參考圖6.8-1。
6.8t 分布 和 t分布相關的一些值,可以從表7 當中查到。
6.8t 分布 例 6.8-1 假設我們用Tk代表自由度k 的t 分布隨機變數,則 滿足P(T3≥ a) = 0.01的a 等於多少? (b) 若P(-c < T6< c) = 0.95,則c等於多少? (c) 若P(T11 < b) = 0.1,則b 等於多少?