1 / 52

第六章

第六章. 抽樣分布. 6.1 什麼是抽樣分布. 6.2 取出放回和取出不放回. 6.3 隨機樣本的性質. 6.4 樣本平均數之抽樣分布. 6.5 中央極限定理. 6.6 連續型之修正. 6.7 樣本比例之抽樣分布. 6.8 t 分布. 6.1 什麼是抽樣分布.

devona
Download Presentation

第六章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六章 抽樣分布

  2. 6.1什麼是抽樣分布 6.2取出放回和取出不放回 6.3隨機樣本的性質 6.4樣本平均數之抽樣分布 6.5中央極限定理 6.6連續型之修正 6.7樣本比例之抽樣分布 6.8t 分布

  3. 6.1什麼是抽樣分布 在第一章曾經討論過,用樣本比例來估計母體比例時,結果好不好主要是看樣本取得好不好;而要取得適當的樣本,必須用正確的抽樣方式,也就是隨機抽樣。隨機抽樣可以避免人為因素,選出客觀、有代表性的樣本。常用的隨機抽樣方式有許多種,其中最基本也最容易了解的一種,叫做簡單隨機抽樣,所抽出的樣本叫做簡單隨機樣本。大樂透開獎時從49個號碼球當中隨機抽出的6 個號碼( 不計入特別號),就可以視為一個簡單隨機樣本,因為任一組6 個號碼被抽中的機會都相同。

  4. 6.1什麼是抽樣分布 我們說用隨機樣本是「好」的估計方式,究竟好在哪裡呢?答案在於:從隨機樣本所得到的結果( 例如樣本比例),雖然會變來變去,但是並非毫無章法、亂變一通,而是會形成一定的「架構」;而這個架構會把母體比例p和樣本比例 之間的關係連結起來。我們用 來估計p 時,由於有這個架構,因此可以評估誤差的大小;對照起來,若不用隨機方式抽樣,則沒有 架構可以掌握,對於估計結果的好壞,完全沒有辦法評估。

  5. 6.1什麼是抽樣分布 樣本比例是一種統計量( 統計量是樣本的函數,抽樣之後就可以算出其值),統計量的機率分布因為是不斷抽樣的結果,另一個名稱是「抽樣分布」(sampling distribution)。

  6. 6.1什麼是抽樣分布 例 6.1-1 假定一個迷你班的5 個學生,某次考試成績如下:90、80、80、60、40。假設我們用隨機方式選出2 位同學,取出不放回,用X 代表2位同學的平均分數,求X 的抽樣分布。 因為只有5 個人,從裡面隨機選兩人只有10 種可能方法:用A、B、C、D、E 分別依序代表成績為90、80、80、60、40 的5 位同學的話,我們選出的可能結果就是AB、AC、AD、AE、BC、BD、BE、CD、CE、DE 這10 種組合,每種組合被抽中的機率相同,均為 。選中A 和B 的話, 的值是 85;選中C 和D, 就會等於70,依此類推,可得 值如下( 依照以上10 種組合列出的順序): 85、85、75、65、80、70、60、70、60、50

  7. 6.1什麼是抽樣分布 整理一下會發現, 的可能值有85、80、75、70、65、60、50 共7種,其中85、70、60 各出現2 次、其餘各出現1 次,因此 的抽樣分布如下: 很容易可算出全班平均是70 分;計算10 個X 值的平均,會得到 ,恰巧等於全班平均分數。其實,這是必然的結果:雖然隨機抽出兩位同學的平均分數當做全班平均分數的估計時,結果有很多種可能(85、75、…、50),但是所有這些估計值( 樣本平均數) 的平均,必定會等於全班的平均( 母體平均數),這叫做不偏性質,將在第七章討論。

  8. 6.1什麼是抽樣分布 例 6.1-2 假定一個迷你班的5 個學生,某次考試成績如下:90、80、80、60、40。假設我們用隨機方式選出2 位同學,取出放回,用X 代表2 位同學的平均分數,求X 的抽樣分布。 此例題和例6.1-1 的題目內容相同,只是將抽樣方式從取出不放回改為取出放回。因此,可能結果從 種增加到5.5 = 25種。 25 個X 值如下: 85、85、75、65、80、70、60、70、60、50、85、85、75、 65、80、70、60、70、60、50、90、80、80、60、40

  9. 6.2取出放回和取出不放回 例 6.2-1 計算例6.1-1 和例6.1-2 當中樣本平均數X 的變異數,並和母體變異數做比較。 取出不放回( 例6.1-1): 利用X 的機率分布(6.1-1),可得取出不放回的變異數為 只要是從母體當中抽取樣本出來平均,所得樣本平均數X 的分布情況,必定比母體的分布要「集中」,所以X 的變異數必定小於母體變異數。 兩個結果明顯不同,且取出不放回的變異數較小。

  10. 6.2取出放回和取出不放回 統計裡面很多性質都建立在「獨立」條件之上。有時雖然嚴格來說,事件之間並不符合獨立的條件,但是差別卻很小,此時也可視為獨立狀況來考慮,最合適的例子就是民意調查。 在抽樣做民意調查時,實際執行的過程,應該相當於取出不放回,因為同一個人不會被訪問兩次,如此狀況並不符合「互相獨立」的條件。但實際上只要母體比樣本大很多,取出不放回和取出放回的差別就非常小,即使執行取出不放回,也可以把前後結果視為互相獨立。舉例說明如下:

  11. 6.2取出放回和取出不放回 假設有10,000 個人,其中60% ( 即6000 人) 會用電腦,現在從母體當中依序抽出三人,則三人都會用電腦的機率是 這和取出放回的結果,0.6⋅0.6⋅0.6 = 0.216,是非常接近的。但是如果總共只有10 個人,其中60% ( 即6 人) 會用電腦,則依序抽出三人,該三人都會用電腦的機率,會等於

  12. 6.2取出放回和取出不放回 這就和取出放回的結果,0.6⋅0.6⋅0.6 = 0.216,相差很多了。比較一下會發現,癥結在於:分子和分母的數字都很大的時候,例如 ,分子和分母各減掉1 之後再相除,和原來的結果差別非常小;若是各減掉2 之後再相除,差別仍然非常小。所以,雖然前後結果之間並不獨立,但和獨立的情況很接近(0.21596 非常接近0.216);但是像 這樣分子和分母的數字都很小的情況,分子和分母再各減1 或各減2 之後相除,就和原來的結果有明顯差別。

  13. 6.2取出放回和取出不放回 還有一個會影響結果的因素是:上述例子中相乘的項數是否較多;也就是,所抽的樣本是否較大。如果從10,000 個人當中抽出1000 個人,而不是3 個人,再計算1000 個人都會用電腦的機率,則計算式中會有1000 項相乘,而其中最後一項會等於 和0.6就有明顯差距;它的前幾項只比這項略大一點點( 前一項是 再前一項是 ),也和0.6 有明顯差 距,相乘之後,整體結果就和獨立的結果相當不同了。

  14. 6.2取出放回和取出不放回 不過,「樣本大不大」其實是相對的,而不是絕對的,比如樣本大小若維持在1000,但是把母體人數改為1,000,000,則計算式中的最後一項會等於 又和0.6 很接近了。 綜合以上的討論可知,只要母體比樣本大很多的時候,即使樣本是用取出不放回的方式抽取,結果也和取出放回的結果差不多,因此抽取的各次結果之間可視為互相獨立。

  15. 6.3隨機樣本的性質 在統計問題裡面,母體通常都很大、很難掌握,因此才需要抽樣。樣本大小無論是幾十、幾百或幾千,和母體比較起來都偏小。所以,根據6.2 節的討論,即便通常抽樣都是取出不放回,仍然可以假設:前後抽取 的各次結果之間互相獨立;也就是說,X1,X2,…,Xn之間互相獨立。每一個Xi 的分布,和母體的分布又是什麼關係,我們用例子來說明。

  16. 6.3隨機樣本的性質 例 6.3-1 假設某一以理工為主的大學當中,文、理、工、商各學院學生佔全校的比例分別為20%、25%、40%、15%。若從全體學生當中隨意抽出一人,則他屬於每個學院的機率各是多少? 為了討論方便,我們用編號1、2、3、4 分別代表文、理、工、商各學院。   若用X 代表抽出的學生所屬學院之代號,則因為全體學生當中有20% 屬於文學院,所以該生屬於文學院的機率是0.2,即P(X = 1)= 0.2,依此類推,可知P(X = 2) = 0.25、P(X = 3) = 0.4、P(X = 4) =0.15。也就是說,從母體( 全體學生) 當中隨機抽出的一個樣本,其機率分布和母體相同。 綜合以上討論可得隨機樣本的性質如下: 設X1, X2 ,…, Xn為抽自某一母體的隨機樣本,則X1,X2,…,Xn之間互相獨立, 且每個 Xi 的機率分布, 和母體的機率分布相同。「X1,X2,…,Xn為抽自某一母體的隨機樣本」的說法,也可用以下描述代替:「 X1,X2,…,Xn為i.i.d.」,其中第一個i代表獨立(independent),接下來的i和d 代表分布相同(identically distributed)。

  17. 6.4樣本平均數之抽樣分布 要注意的是:應用上述公式1 計算期望值時,不需要假設X1, X2, …,Xn之間互相獨立,但是用公式2 計算變異數,就必須有互相獨立的條件。少了互相獨立的條件,代表X1, X2, …, Xn有些變數之間有關聯,所以其線性組合的變異數不僅和每個變數的變異數有關,還和有關聯的變數之間的相關性有關,所以公式會比較複雜。

  18. 6.4樣本平均數之抽樣分布 例 6.4-1 假設隨機變數X 和Y 互相獨立,E(X ) = 3、V(X ) = 4、E(Y ) = 7、V(Y )= 2,求3X - 2Y 之期望值和變異數。 E(3X - 2Y) = 3E(X ) -2E(Y) = -5 V (3X - 2Y) = 9V (X ) + 4V (Y) = 44

  19. 6.4樣本平均數之抽樣分布 現在可以利用公式,計算樣本平均數的期望值、變異數和標準差:

  20. 6.4樣本平均數之抽樣分布 X 的標準差常被稱作 X 的標準誤(standard error),我們用 X 估計µ時,可以用標準誤當作準確性的評估。用其他統計量估計母體參數時,也可考慮該統計量的 標準誤,所以一般定義如下: 定義 用一個統計量估計母體的任一參數時,統計量的標準誤,即為該統計量的標準差。

  21. 6.4樣本平均數之抽樣分布 例 6.4-2 假設某品牌某種零嘴隨手包的平均重量是30 公克,標準差1 公克。如果考慮從產品中隨意抽出25 包,並計算樣本平均數X ,則X 的平均數( 期望值) 和標準差各是多少? 根據公式:

  22. 6.4樣本平均數之抽樣分布 在6.1 節定義過,統計量的抽樣分布是指它的機率分布,所以X 的抽樣分布是指X 的所有可能值及這些值發生的機率。而這個分布和母體分布有密切的關係。 例 6.4-3 設母體1 = {60、70、80},母體2 = {40、50、80}。分別從母體1 和母體2 抽隨機樣本( 取出放回),n = 2,求樣本平均數的抽樣分布。

  23. 6.4樣本平均數之抽樣分布 從母體1 用取出放回方式隨意抽出兩個,再計算樣本平均數X 的值,經過整理之後可得 母體1 總共3 個點,所以它的分布可用圖6.4-1 表示:

  24. 6.4樣本平均數之抽樣分布 其次,考慮母體2,它的分布可用圖6.4-3 表示:

  25. 6.4樣本平均數之抽樣分布 從母體2 用取出放回方式隨意抽出兩個,再計算樣本平均數Y 的值,經過整理之後可得 比較圖6.4-2 和圖6.4-4 會發現,因為母體分布不一樣,所以樣本平均數的分布就不一樣。另外拿圖6.4-1 和圖6.4-2 比較,或者拿圖6.4-3 和圖6.4-4 比較都會發現:樣本平均數的分布,一定比它原來母體的分布更為靠中間集中。

  26. 6.5中央極限定理

  27. 6.5中央極限定理 例 6.5-1 實驗人員經長期研究發現,某種類的老鼠走完某迷宮所需時間,符合平均數為2 分鐘、標準差為0.4 分鐘的常態分布。今隨機選出這類老鼠5 隻,令其分別走迷宮並記錄時間,求5 隻老鼠走迷宮總共所需時間介於9 分鐘和11 分鐘之間的機率。 令X1, X2, …, X5 分別代表每隻老鼠走完迷宮所需時間,且令T = X1+ X2 + … + X5 代表5 隻老鼠走迷宮總共所需時間,則題目所求為P(9 < T <11)。定理6.5-1 告訴我們:樣本平均數X 的分布是平均數為µ = 2、變異數為 的常態分布,雖然沒有直接 告訴我們T 的分布,但是因為

  28. 6.5中央極限定理

  29. 6.5中央極限定理 對此定理有以下補充說明: 結論換個方式說也對: 在同樣的假設條件下, 如果n 夠大,則 的分布會接近平均數為nµ ,變異數為的常態分布;也就 4. 所謂「n 夠大」並沒有一定的標準,有的教科書建議適用中央極限定理的標準是n ≥ 25,有的教科書卻建議n ≥ 30。事實上,n 需要多大,和母體分布有很大的關係。在例6.4-2 當中我們看到,和母體分布比較起來,樣本平均的分布一定會往中間集中,n 愈大就愈集中( 所以n 夠大時會接近常態分布),但是集中的快慢就因母體分布的形狀而有所不同。 2. 定理6.5-1 的隨機樣本是抽自常態分布母體,此時不論n 是多少,樣本平均數X 的抽樣分布都是確實的常態分布;中央極限定理的隨機樣本是抽自任何分布的母體( 只要變異數存在),而樣本平均數X 的抽樣分布,是在n 夠大的時候,接近常態分布。 3. 中央極限定理對於樣本所來自的母體,幾乎沒有任何限制,唯一的條件是變異數存在;變異數存在的意思是說:它是個有限數,而絕大多數母體都符合這個條件。

  30. 6.5中央極限定理 5. 在4.4 節曾討論,當X1, X2, …, Xn為互相獨立的伯努利隨機變數, 參數p = P(Xi =1) 時, 的分布為二項分布B(n, p) ( 而任意符合 二項分布B(n, p) 的隨機變數,都也可視為n 項互相獨立的伯努利 隨機變數的和),因此根據中央極限定理, 的分布在n 夠大時 會接近常態分布;也就是說,n 夠大時,我們可以用常態分布來求 二項分布的近似機率。n 需要多大才合適呢?可以利用以下準則: 條件雖然有兩個: np≥ 5及n(1 - p) ≥ 5,實際上只要驗證其中之一就可以了。如果1- p ≥p,只要驗證np≥ 5 成立即可,因為此時n(1- p) ≥np≥ 5;反之,若p ≥1- p,則只要驗證n(1 - p) ≥ 5 成立,則必有np ≥ n(1- p) ≥ 5。

  31. 6.5中央極限定理 例 6.5-2 假設隨機變數X 的分布是二項分布B(n, p),而我們想要用常態分布來求有關X 的近似機率( 也就是應用中央極限定理)。當p 分別等於以下各個不同的值時,n 應該等於多少才合適? (a) p = 0.2;(b) p = 0.5;(c) p = 0.9。 (a) p = 0.2 < 0.8 =1- p,所以只要np= n.0.2 ≥ 5即可,即n ≥ 25。 (b) p = 0.5 =1- p,所以只要np= n ⋅0.5 ≥ 5即可,即n ≥10。 (c) p = 0.9 > 0.1 =1- p,所以必須n(1- p) = n.0.1 ≥ 5,即n ≥ 50時,適合應用中央極限定理。

  32. 6.5中央極限定理 所謂適用與否,其實是在規範利用常態分布來求二項分布近似機率時的誤差。符合適用條件時,可以預期誤差會相當小。 上述要求np≥ 5 及n(1 - p) ≥ 5 的條件,只是一種參考用的準則,也有學者建議要符合np≥ 10 及n(1 - p) ≥ 10 條件時,才適合用常態分布求二項分布之近似機率。當然條件較嚴格時,可以預期近似機率的誤差比較小。

  33. 6.5中央極限定理 例 6.5-3 假設某品牌有一種零嘴隨手包的平均重量是30 公克,標準差1 公克。如果從產品中隨機抽出25 包,利用中央極限定理,計算以下事件的近似機率: (a) 25 包的平均重量超過30.6 公克。 (b) 25 包的平均重量介於29.5 公克和30.5 公克之間。 (c) 25 包的總重量不到740 公克。

  34. 6.6連續型之修正

  35. 6.6連續型之修正 當X ~ B(10, 0.5) 時,若要用中央極限定理求P(6 ≤ X ≤ 7) 的近似機率時,應該先把區間兩端各延伸0.5 個單位,成為P(5.5≤X ≤ 7.5)之後,再利用常態分布來計算近似機率。這種0.5 個單位的調整,稱為連續型之修正(continuity correction)。P(6 ≤ X ≤ 7)的確實值和經過連續型修正之後所得近似機率的差別,可參考圖6.6-4:確實機率是深色長方形的面積,而近似機率是用深色粗線所框起部份的面積。

  36. 6.6連續型之修正 例 6.6-1 設隨機變數X ~ B(10, 0.5),用中央極限定理求P(6 ≤X ≤ 7)的近似機率,分別用兩種方式計算,並且和確實機率做比較:(a) 不用連續型之修正;(b) 要用連續型之修正。 比較算出的三項機率可以明顯看出:沒經過連續型修正的近似機率,和確實機率差很多;而經過連續型修正的結果,則很接近確實機率。

  37. 6.6連續型之修正 連續型修正還有一個作用,就是可以處理P(X = x) 類型的機率,我們用例子說明。 例 6.6-2 假設我們擲一枚均勻的硬幣10 次,用中央極限定理求事件「恰得5次正面」的近似機率,並和確實機率做比較。

  38. 6.6連續型之修正 若令X 代表10 次當中正面出現的次數,則X ~ B(10,0.5),和例6.6-1的條件相同,而現在要計算的是P(X = 5)。   若要用中央極限定理求近似機率,等於是把X 視為常態分布的隨機變數,因此不用計算就可知道P(X = 5) = 0,因為常態分布屬於連續型分布、任何單獨一點的機率都等於0。但是這個答案明顯不合 理;因為擲10 次硬幣時,頗有可能出現恰好5 個正面這種結果。而只要運用連續型修正,就可以解決問題了。 直接查二項分布表可得確實機率: P(X = 5) = P(X ≤ 5) - P(X ≤ 4) = 0.623- 0.377 = 0.246 兩者比較起來,可說近似機率的誤差相當小。

  39. 6.6連續型之修正 二項分布的可能值都是非負整數,所以若X 代表二項分布隨機變數的話,事件「X 小於8」和事件「X 小於或等於7.5」是完全相同的,因為前者代表X 的值可能是0, 1,…, 7,後者也完全相同。所以第二種修正方式的要點是:「加或減0.5 之後所得到的區間,其中所包含的非負整數,必須和原來區間所包含的完全相同」,舉例說明如下:

  40. 6.6連續型之修正 例 6.6-3 根據上述第二種方式,對以下機率式子做連續型之修正: (a) P(3 ≤ X ≤ 7)(b) P(3 ≤ X < 7)(c) P(3 < X ≤ 7)(d) P(X > 6) 現在來檢驗一下修正前後的兩個區間所包含的非負整數,「3 ≤X < 7」這個區間所包含的非負整數是: 3, 4, 5, 6, 7 「2.5 ≤ X ≤ 7.5」這個區間所包含的非負整數也是: 3, 4, 5, 6, 7 兩者完全相同,所以答案正確。 P(3 ≤ X ≤ 7) 如何決定3 應該改成2.5 或是3.5,可以這樣考慮:本來X 有可能等於3,如果把「3 ≤ X」改成「3.5 ≤ X」,則排除了X = 3 的可能性,所以應該是寫成「2.5 ≤ X」才正確;同理,「X ≤ 7」的部份應修正為「X ≤ 7.5」。所以,完整的修正是: P(3 ≤ X ≤ 7) = P(2.5 ≤ X ≤ 7.5)

  41. 6.6連續型之修正 (b) P(3 ≤ X < 7) 「3 ≤ X 」的部份和(a) 相同,所以應修正為「2.5 ≤ X」。「X < 7」則不包含7,所以應修正為「X < 6.5」,所以 P(3≤ X < 7) = P(2.5 ≤ X < 6.5) 檢驗一下區間中所包含的非負整數: 3 ≤ X < 7 包含的非負整數是:3, 4, 5, 6 2.5 ≤ X < 6.5 包含的非負整數也是:3, 4, 5, 6 所以答案正確。 同理可得: (c) P(3 < X ≤ 7) = P(3.5< X ≤ 7.5) = P(3.5 ≤ X ≤ 7.5) (d) P(X >6) = P(X >6.5) = P(X ≥ 6.5) 這裡如果要把 P(2.5 ≤X < 6.5) 寫成 P(2.5 ≤X ≤ 6.5) 也是可以的,因為X 不可能等於6.5,所以多加了一個等號沒有任何影響。

  42. 6.6連續型之修正 上述修正原則也可以用來處理P(X = 5)類型機率式的連續型修正。我們把P(X = 5)當中的5 分別加和減0.5 之後,會得到P(4.5 ≤X ≤ 5.5),「X = 5」只包含5 這個非負整數,「4.5 ≤ X ≤ 5.5」也是一樣,所以可知P(X = 5) = P(4.5 ≤X ≤ 5.5)是正確的修正。

  43. 6.7樣本比例之抽樣分布 假設母體當中,符合某特質的佔比例p,考慮從母體抽取隨機樣本,樣本大小是n,然後記錄樣本 中符合該特質的比例 ,則 是伯努利隨機變數,參數為p。

  44. 6.7樣本比例之抽樣分布 因為E(Xi) = p,V(Xi) = p(1 - p),所以根據中央極限定理,可得 的抽樣分布如下:

  45. 6.7樣本比例之抽樣分布 例 6.7-2 擲一顆平衡骰子180 次,求6 點出現的比例超過五分之一的機率。

  46. 6.7樣本比例之抽樣分布 例 6.7-3 假設一大批螺絲釘當中,瑕疵品佔比例p。今從中隨機抽檢100 枚,若其中瑕疵品比例不超過3%,則視為整批螺絲釘通過檢驗。假如整批的瑕疵品比例p 事實上等於5%,求其通過檢驗的機率。 也就是說,用「樣本當中的瑕疵品比例不超過3%」當作檢驗標準的話,如果整批貨的瑕疵品實際上佔5%,隨機抽檢100 枚時,大約有17.88% 的機率會通過檢驗。

  47. 6.8t 分布 定理6.5-1 告訴我們,若X1, X2 , ⋅⋅⋅, Xn為抽自某一常態分布 N(µ,)的隨機樣本,把標準化之後所得到的 ,它的抽樣分布是標準常態分布; 如果不知道σ是多少必須用估計量取代。通常我們會用樣本標準差 取代之後得到的 ,其分布不再是標準常態,而是屬於一族叫做t 分布(t distribution) 的分布。

  48. 6.8t 分布 t 分布的形狀,和常態分布很像,有以下性質: 1. t 分布的形狀和標準常態分布相當接近,也是對稱於0 的鐘型,但是t 分布的分散較廣。標準常態分布的變異數是1,t 分布的變異數卻會大於1。例如自由度為6 的t 分布,變異數等於1.5;而自由度為4的t 分布。變異數則等於2。 2. t 分布有一個參數叫做自由度(degrees of freedom,縮寫d.f.),是正整數。自由度小的t 分布分散比較廣,自由度變大,則分布會往中間靠攏。自由度愈變愈大,t 分布就會愈來愈接近標準常態分布,可參考圖6.8-1。

  49. 6.8t 分布 和 t分布相關的一些值,可以從表7 當中查到。

  50. 6.8t 分布 例 6.8-1 假設我們用Tk代表自由度k 的t 分布隨機變數,則 滿足P(T3≥ a) = 0.01的a 等於多少? (b) 若P(-c < T6< c) = 0.95,則c等於多少? (c) 若P(T11 < b) = 0.1,則b 等於多少?

More Related