1 / 61

一、抽樣方法

一、抽樣方法. 1. 統計的意義:. 統計是針對一些不確定的現象中尋求有關全體的通則,. 而非個別事件發生的結果。. 研究對象的全體稱為「 母群體 」;. 從母群體抽出一部分稱為「 樣本 ( 隨機樣本 ) 」;. 抽出樣本的過程稱為「 抽樣 」。. (1) 統計不是預言家,必須從「 足夠多 」的資料中. 才有可能尋求出研究對象全體的通則。. (2) 統計資料必須客觀而周延,否則所得結果必有偏差,. 而導致錯誤的統計推論。. 本段結束. 2. 資料調查:. (1) 普查: 對所要研究的某種現象作「 全面性 」的調查。. 例如:人口普查、工商普查。.

elmo-conrad
Download Presentation

一、抽樣方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 一、抽樣方法 1. 統計的意義: 統計是針對一些不確定的現象中尋求有關全體的通則, 而非個別事件發生的結果。 研究對象的全體稱為「母群體」; 從母群體抽出一部分稱為「樣本(隨機樣本)」; 抽出樣本的過程稱為「抽樣」。 (1)統計不是預言家,必須從「足夠多」的資料中 才有可能尋求出研究對象全體的通則。 (2)統計資料必須客觀而周延,否則所得結果必有偏差, 而導致錯誤的統計推論。 本段結束

  2. 2. 資料調查: (1) 普查:對所要研究的某種現象作「全面性」的調查。 例如:人口普查、工商普查。 優點:所得資料完整可靠。 缺點:費時、費力、不經濟。 (2) 抽查:對所要研究的某種現象作「部分性」的調查。 例如:民意調查。 優點:省時、省力、省錢。 缺點:抽樣的好壞會影響結論的正確性,其代表性較低。 本段結束

  3. 3. 抽樣的方法: (1) 簡單隨機抽樣:不摻入人為因素,且母群體中每一個體 被抽中機會均等。 利用替代母群體:將母群體的每一個體編號或用籤取代之, 再用抽籤方式抽出樣本。  利用隨機號碼表:將母群體的每一個體編號, 再從隨機號碼表(由電腦產生)抽取號碼。 優點:客觀、簡單。 缺點:因隨機而缺少安定性;若是大規模之調查則費時費力。 (2) 系統抽樣:先將個體編號或排列,經由隨機抽取第一個樣本, 以後每隔一定時間或距離選一調查樣本。 優點:執行易、效率高。 缺點:有週期性或循環性之母群體不宜採用。 To be continued  (3) 分層抽樣 (4) 部落抽樣

  4. (3) 分層抽樣:按某種標準將母群體分成若干組,每組稱為一層, 同一層差異小而不同層差異大,然後從每層中按特定比例, 隨機抽查若干個體作樣本。 優點:不同層差異大而同層差異小故具代表性。 缺點:某些特殊母群體歸類困難。 (4) 部落抽樣:按某種標準將母群體分成若干組,每組稱為一部落, 各部落差異小,然後從這些部落中, 隨機抽查若干部落做全面性的調查。 優點:較具經濟性。 本段結束 缺點:較不一般化。

  5. 4. 範例:某班 20 位學生成績如下: 隨機號碼表 利用上表從第 2 列、第 5 行開始,由左而右使用隨機抽樣法, 選取 5 位同學,求其平均分數。 解:所抽為:88,03,04,78,41,57,56,26,16,03, 13,39,46,66,12。 = 78分。 Let’s do an exercise !

  6. 馬上練習:有一群體有九位成員,其身高分別為馬上練習:有一群體有九位成員,其身高分別為 < 91學測 > 160, 163, 166, 170, 172, 174, 176, 178, 180(單位:公分) 此九人的平均身高為 171 公分。今隨機抽樣 3 人, 則抽到 3 人的平均身高等於母體平均身高的機率為________﹒ 解:身高的離均差分別為:11,8,5,1,1,3,5,7,9。 三人平均等於母群體平均有三組: (8,3,5) , (8,1,7) , (8,1,9) #

  7. 5. 範例:某班有 50 位同學,其中男生有 30 位,女生 20 位。 某次導師要抽 5 位同學留下打掃環境, 依性別按人數比例做分層抽樣, 求班上男同學張志明被抽中的機率? <89數乙> 解:男:女= 3:2 抽出男生 3 位,女生 2 位。 張小明與另 2 位男生,女生 2 位。 Let’s do an exercise !

  8. 馬上練習:某班有 30 位同學,其中男生有 20 位,女生有 10 位, 其中小忠、小柔兩人是男女朋友,今要抽 6 位同學打掃環境, (1) 若採隨機抽樣,求小忠、小柔都被抽中的機率。 (2) 若依性別按人數作分層抽樣,求小忠、小柔都被抽中的機率。 解: 6×5 抽出男生 4位,女生 2位。 (2) 男:女= 2:1 #

  9. 6. 範例:某班 20 位學生成績如下: 隨機號碼表 To be continued  詳解 (1)

  10. (1) 利用上表從第 3 列、第 4 列開始,分別作為取出樣本之同學 座號的十位數與個位數,由左而右使用隨機抽樣法, 選取 5 位同學,求其平均分數。 67,59,96,75,26,05,…,16,…,02, 解:(1) 所抽為: 64,03,…,17。 = 69.2分。 To be continued  詳解 (2)

  11. (2) 利用系統抽樣法,以第 (1) 小題的第二位作為系統法之第一位, 並將 20 位同學視為圓形狀,選取 5 位同學,求其平均分數。 之後每位差 4 號, 解:(2) 系統法第一位為16, 故所抽五位為:16,20,04,08,12。 = 66分。 To be continued  詳解 (3)

  12. (3) 將全班同學成績X,分成二層,第一層:X70,第二層:X<70, 按比例選取 5 位同學(依第 3 列為十位數,第 4 列為個位數), 求其平均分數。 解:(3) X  70者如右: X < 70者如下: 隨機號碼表(第3列,第4列) 所抽為:…,05,…,16,…,02,64,03,…,17,…,14。 = 65 分。 Let’s do an exercise !

  13. 馬上練習:所謂國人稅前所得,是指納稅義務人在納稅前之個人所得,馬上練習:所謂國人稅前所得,是指納稅義務人在納稅前之個人所得, 以下簡稱所得。依照某國 1997 年的官方資料,依每人所得高低 將人數等分為 5 組,最高 20% 的人總所得占全體總所得的 44.6%, 而最低 20% 的人的總所得占全體總所得的 3.6%,所有資料 如下圖所示。所得差距倍數是指最高 20% 的個人平均所得 與最低 20% 的個人平均所得的比值。請選出正確的選項。 <101數乙> (1) 此項資料顯示所得差距倍數超過 13 倍 To be continued  詳 解 (2) 最高 30% 的人的總所得超過全體總所得的 55% (3) 最少有 60% 的人,其個人所得低於的總所得超過全體總所得的 55% (4) 最低 20% 的人的平均所得為全體平均所得的 3.6%

  14. (1) 此項資料顯示所得差距倍數超過 13 倍 (2) 最高 30% 的人的總所得超過全體總所得的 55% (3) 最少有 60% 的人,其個人所得低於的總所得超過全體總所得的 55% (4) 最低 20% 的人的平均所得為全體平均所得的 3.6% <101數乙> 解: (1) 錯誤。 < 13 = 14  14 + 44.6 (2) 正確。 = 58.6 To be continued  詳解 (3) (4)

  15. (3) 最少有 60% 的人,其個人所得低於的總所得超過全體總所得的 55% (4) 最低 20% 的人的平均所得為全體平均所得的 3.6% <101數乙> 解: = 1, = 0.18; = 0.445 = 1.4; = 2.23。 (3) 錯誤。 50%的人低於全體平均 = 1 = 0.18; (4) 錯誤。 故選 (2)。 #

  16. 二、常態分配 1. 常態分布的意義: 如果次數分配圖,呈現中間較高,且左右對稱的鐘型時, 我們就稱這組資料呈現近似常態分配。 許多資料的分布都近似於常態分布, 如身高、體重的分布。 To be continued  68 95 99.7規則

  17. 常態分配有一個特性,它們都遵循 68 95 99.7規則, 約有 68%的資料值落在距平均數1個標準差範圍內, 約有 95%的資料值落在距平均數2個標準差範圍內, 約有 99.7%的資料值落在距平均數3個標準差範圍內, 如下圖所示。 68%的資料 95%的資料 99.7%的資料 3  2 +2  +3 + To be continued  區間表示法

  18. 令平均數為 ,標準差為  ,則 約有 68%的資料值,在區間[  , +] 內, 約有 95%的資料值,在區間[ 2 , +2]內, 約有 99.7%的資料值,在區間[ 3 , +3] 內。 68%的資料 95%的資料 99.7%的資料 3  2 +2  +3 + To be continued  注 意

  19. 注意: (1)常態分布曲線中的平均數就是 其機率質量函數分布的期望值。 (2) 常態分布曲線是對稱的, 故平均數與中位數都落在 曲線的中間位置, 即尖峰所在。  +2 +3  + 2 3 (3) 常態分布的平均數、中位數 與眾數全都相同。 (4) 常態分布曲線的函數為 其中 ,分別為母群體的平均數和標準差, 且 e = 2.71828…稱為納皮爾常數。 本段結束

  20. 2. 範例:若某校 1000 位學生的數學段考成績平均分數是 65.24 分, 樣本標準差是 5.24 分,而且已知成績分布呈現常態分配, 試問全校約有多少人數學成績低於 60 分﹖ < 91學測 > (1) 約 80人 (2) 約 160人 (3) 約 240人 (4) 約 320人 (5) 約 400人 解:約 68%的資料值,在區間 [ 65.24  5.24 , 65.24 + 5.24 ] 內, 即 [ 60 , 70.48 ] 內。 60分以下及 70.48分以上,約共佔 32%, 60分以下及 70.48分以上,約各佔 16%, 不及格有 100016% = 160名。 68%的資料 95%的資料 故選 (2)。 #  +2  + 2 65.24 54.76 60 70.48 75.72

  21. 馬上練習:國一學生 30 萬人,智商測驗的結果是 「平均數 100,標準差 15」的常態分布。 若以智商 130 以上做為甄選國一學生為資優生的門檻, 則根據這次測驗的結果判斷下列選項中的敘述,哪些是正確的? (1) 約有 5% 的國一學生通過資優生甄選門檻 (2) 約有 15 萬名國一學生的智商在 100 以上 (3) 超過 20 萬名國一學生智商介於 85 至 115 之間 (4) 隨機抽出 1000 名國一學生﹐可期望有 25 名資優生 (5) 如果某偏遠學校只有 14 名的國一學生,那麼該校不會有資優生。 <98數乙> (1) ( 100%  95% )  2 = 2.5% 。 解: (2) 30 × 0.5 = 15 。(平均數100以上 ) (3) 30 × 0.68 = 20.4 。( [  , +] ) 68%的資料 (4) 1000 × 2.5% = 25 。 95%的資料 (5) 不一定, 數量夠多才有常態分布。   2 + +2 故選(2)(3)(4)。 # 130 100 115 70 85

  22. 3. 範例:下圖為 100 婦女體重的直方圖,(圖中百分比為各體重區間的 相對次數)其中各區間不包含左端點而包含右端點。 該 100 名婦女平均體重為 55 公斤,標準差為 12.5 公斤。 曲線 N代表一常態分布,其平均數與標準差與樣本值相同。 在此樣本中,若定義「體重過重」的標準為體重超過樣本平均數 2 個標準差以上。下列敘述那些正確? 33% (1) 曲線 N 中,在 55 公斤以上 相 對 次 數 < 95學測 > 24% 所佔的比例約為 50%。 20% N (2) 曲線 N 中,在 80 公斤以上 12% 所佔的比例約為 2.5%。 (3) 該樣本中,體重的中位數大於 55 公斤。 6% 5% (4) 該樣本中,體重的第一四分位數 大於 45 公斤。 30 35 40 45 50 55 60 65 70 75 808590 95 100 體重(公斤) (5) 該樣本中,「體重過重」的比例 To be continued  詳 解 大於或等於 5% 。

  23. 33% 該 100 名婦女平均體重為 55 公斤, 標準差為 12.5 公斤。曲線 N代表一 24% 常態分布,其平均數與標準差與樣本值 20% N 相同。樣本中,「體重過重」為體重 < 95學測 > 相 對 次 數 超過樣本平均數 2 個標準差以上。 12% (1) 曲線 N 中,在 55 公斤以上 6% 5% 所佔的比例約為 50%。 (2) 曲線 N 中,在 80 公斤以上 30 35 40 45 50 55 60 65 70 75 808590 95 100 所佔的比例約為 2.5%。 體重(公斤) 解:(1) 常態分布平均數 55 以上佔 50% N 55 以上約佔 50% 。 (2) 常態分布約有 95%的資料值, 68% 95% 在區間 [   2 ,  + 2] 內, +2   + 2  [ 55  212.5 , 55 + 212.5] 42.5 80 30 55 77.5  [ 30 , 80 ] 80以上佔約佔 2.5%。 To be continued  (3)(4)(5)

  24. 該 100 名婦女平均體重為 55 公斤, 33% 標準差為 12.5 公斤。曲線 N代表一 24% 常態分布,其平均數與標準差與樣本值 20% N 相同。樣本中,「體重過重」為體重 < 95學測 > 相 對 次 數 超過樣本平均數 2 個標準差以上。 12% (3) 該樣本中,體重的中位數大於 55 公斤。 6% (4) 該樣本中,體重的第一四分位數 5% 大於 45 公斤。 (5) 該樣本中,「體重過重」的比例 30 35 40 45 50 55 60 65 70 75 808590 95 100 體重(公斤) 大於或等於 5% 。 Me < 55。 解:(3) 樣本中,(20% + 33%) > 50% Me在 45 ~ 55這組 Q1 > 45。 Q1在 45 ~ 55這組 (4) 樣本中,20% < 25% < 50% 過重(80以上)的比例 5%。 (5) 樣本中,85 ~ 95佔 5% 故正確為 (1) (2) (4) (5)。 #

  25. 4. 標準化:設隨機變數 X 的平均數為 ,標準差為, 的平均數為0,標準差為 1, X  +  +2 +3 2 3 1 3 2 Z 2 0 1 3 證明: = 0。 = 1。 本段結束 注意:

  26. 5. 標準常態分配的機率表: 特性:(1) P( z Z 0 ) = P( 0 Z z )。 (2) P( Z 0 ) = P( Z 0 ) = 0.5。 (3) 若 為一定值,則 P(Z=) = 0。 例如:(1) P(0Z2) = 0.4772。 X  +  +2 +3 2 3 1 3 2 Z 2 0 1 (2) P(Z 2) = 1  P(Z 2) 3 = 1  [ P(Z 0) + P(0 Z 2)] = 1  ( 0.5 + 0.4772 ) = 0.0228。 本段結束

  27. 三、二項分布與常態分布 1. 二項分布: 設一個伯努利試驗成功的機率為 p,失敗的機率為 q, 其中 p+ q= 1。 重複此試驗 n次的機率分布為參數是 (n , p)的二項分布, 設隨機變數 X表示成功的次數,則: To be continued  (2)

  28. 設隨機變數 X表示成功的次數,則: 本段結束 注意:

  29. 2. 範例:擲一硬幣 100 次,設隨機變數 X 表示出現正面的次數, Y 表示出現正面的比率, 求:(1) X 的期望值與標準差。 (2) Y 的期望值與標準差。 解:擲一硬幣 1次得正面的機率 = 50, =5。 Let’s do an exercise !

  30. 馬上練習:一袋中有 5 個球,其中有 2 個紅球, 從袋中每次取一球,取後放回,連取 24 次, 設隨機變數 X 表示取出紅球的球數,Y 表示取出紅球的比率, 求:(1) X的期望值與標準差。 (2) Y的期望值與標準差。 解:取出紅球的機率 =9.6, =2.4。 #

  31. 知 n變大時,Y的標準差隨著變小, 3. 標準化: 其機率分布就愈集中。 如下圖,當 p = 0.5。當 n夠大時, Y接近母體平均數的機率很大,這就是大數法則。 To be continued  標 準 化 中央極限定理模擬實驗網址: http://www.math.nsysu.edu.tw/StatDemo/CentralLimitTheorem/CentralLimit.html

  32. 我們再將上述的 Y標準化, 得下圖。 我們發現 Y標準化後與標準常態分佈非常相近, 本段結束 圖中的組線是標準常態曲線 N(0 , 1)。

  33. 4. 中央極限定理: 在參數是 (n , p)的二項分布中,當試驗的次數 n足夠大時, 成功比率經標準化後的機率分布會近似於標準常態分布 ( 即平均數是 0,標準差是 1的常態分布 )。 例:擲一硬幣 100次,設隨機變數 Y表示出現正面的比率, 則 Y的分布及其標準化如下圖。 Y的分布與常態分布 非常相近 Y標準化後與標準常態分布 非常相近 本段結束

  34. 範例:擲一硬幣 100 次,設隨機變數 Y 表示出現正面的比率, 則:(1) 求 Y 的期望值與標準差。 (2) 利用標準常態分布,求約 95% 的 Y 所在區間。 解:擲一硬幣 1 次得正面的機率 (2) 利用常態分布 68  95  99.7規則, 約有 95%的 Y在區間 [   2 ,  + 2] 內, = [ 0.4 , 0.6 ]。 Let’s do an exercise !

  35. 馬上練習:一袋中有 5 個球,其中有 2 個紅球,從袋中每次取一球, 取後放回,連取 24 次,設隨機變數 Y 表示取出紅球的比率, (1) 求 Y 的期望值與標準差。 (2) 利用標準常態分布,求約 95% 的 Y 所在區間。 解:取出紅球的機率 (2) 利用常態分布 68  95  99.7規則, 約有 95%的 Y在區間 [   2 ,  + 2] 內, = [ 0.2 , 0.6 ]。 #

  36. 四、信賴區間與信心水準 1. 95% 的信賴區間: 在一個大的母體中,設成員具某特質的比率為 p, 若從母體中隨機抽取 n個樣本( n必須夠大), 由中央極限定理, (1) 當 n夠大時, 68%的資料 95%的資料 99.7%的資料 p p p+ p+3 p2 p+2 p3 To be continued  (2) (3)

  37. (2) 一般我們並不知道真正的 p 值, 68% 當樣本數n夠大時, 95% 99.7% p p p+3 p2 p+2 p+ p3 本段結束

  38. 2. 範例:某高中對全校學生家長調查「夜間輔導贊成的支持度」, 回收有效問卷共 400 張,其中贊成者 320 張, 求此次調查的 95% 信賴區間。 解: = [ 0.76 , 0.84 ]。 注意: 所求為 [0.7608 , 0.8392]。 (2) 使用標準常態分配機率表可得 P(1.96 Z 1.96) = 0.95。 Let’s do an exercise !

  39. 馬上練習:某報政府推動的「民生方案」做滿意度調查,馬上練習:某報政府推動的「民生方案」做滿意度調查, 成功訪問了 1600 位公民,其中有 1024 位表示不滿意, 求此次調查的 95% 信賴區間。 解: = [ 0.636 , 0.664 ]。 #

  40. 3. 信賴區間模擬實驗: 利用隨機號碼表,每位同學模擬丟一枚均勻的硬幣 20次。 (1) 以同學的身份證最後兩位數為 ab, (奇數為正面,偶數為反面) 從亂數表第a 列第b 行開始由左到右取 20 個數 (若 a = 0,則從第10 列;b = 0,則從第10 行 ),完成下表: 亂數表 9 0 2 7 6 9 8 8 8 0 反 正 反 正 反 反 反 反 正 反 4 2 8 4 9 1 4 6 3 3 正 反 反 正 反 反 正 反 反 反 (2) 由上表求出現正面比例 =__________。 查表 (3) 利用附表查出 95% 的信賴區間為___________, 是 本段結束 是否包含母體比例 0.5:_______。  %   占全班比例的_____。 (4) 全班同學中,信賴區間包含 0.5 者____人,

  41. 4. 信賴區間與信心水準: (1) 「p的 95%信賴區間」也稱為「95%信心水準下 p 的信賴區間」。 (2)「95%的信心水準」是說:如果我們抽樣多次, 每次都會得到一個信賴區間 這麼多個區間中,約有 95%的區間會涵蓋真正 p值。 To be continued  (4)

  42. 稱為 95%信心水準下的抽樣誤差。 例:某有效問卷共 400 張,其中贊成者 320 張, 95%信心水準的最大誤差為 正負誤差為 4個百分點。 本段結束

  43. 5. 範例:某報對市長施政滿意度進行調查,結果為: 「成功訪問 1000 位已成年市民,滿意度為四成三, 在 95% 信心水準下,抽樣誤差為正負 3.1 個百分點。」 求此次調查的信賴區間。 且誤差為 3.1% = 0.031。 解: = [ 0.399 , 0.461 ]。 Let’s do an exercise ! 注意:

  44. 馬上練習:某報對交通滿意度進行調查,結果為:馬上練習:某報對交通滿意度進行調查,結果為: 「成功訪問 1200 位有駕照市民,滿意度為二成三, 在 95% 信心水準下,抽樣誤差為正負 2.4 個百分點。」 求此次調查的信賴區間。 解: 且誤差為 2.4% =0.024。 = [ 0.206 , 0.254 ] 。 #

  45. 6. 範例:某彩卷宣稱中獎率為 36%,若想檢驗此說法是否屬實, 在 95% 信心水準及抽樣誤差為 3.84 個百分點的條件下, 應隨機採多少張樣本? 且誤差為 0.0384 解: = 0.0384。 故所求 n為 625 張。 Let’s do an exercise !

  46. 馬上練習:某公司調查發現: 「約有 64% 的人過去一年中曾買過樂透彩卷, 且有 95% 的信心認為其誤差在正負3.2% 個百分點之內」。 求樣本中有多少人曾買過樂透彩卷? 且誤差為0.032。 解: = 0.032。 故所求 90064% = 576人。 #

  47. 7. 範例:抽樣調查學生的購物情形,在 95% 信心水準, 約有 72% ~ 76% 的學生曾有過網路購物, 求此次抽樣的人數是多少? 解:由 72% ~ 76% 知: 故所求 n 為 1924 人。 Let’s do an exercise !

  48. 馬上練習:抽樣調查接過詐騙電話的情形,在 95% 信心水準, 約有 70% ~ 76% 的人曾接過詐騙電話, 求樣本中有多少人曾接過詐騙電話? 解:由 70% ~ 76% 知:  所求 87673% = 639 人。 = 876 #

  49. 8. 範例:希望滿足95% 信心水準下,且誤差不超過 3%, 至少要抽取多少個樣本 ? 解: = 1111.…… 。 只要抽取樣本數 n 大於等於 1112時,即可滿足要求。 注意:此由上可知,一般常見的民調,總是取大約 1000 多人。 Let’s do an exercise !

  50. 馬上練習:希望滿足 95% 信心水準下,且誤差不超過 2%, 至少要抽取多少個樣本 ? 解: = 2500。 故至少要抽取 2500個樣本。 #

More Related