1 / 21

Chapter 3 Producing Data 產生資料

Chapter 3 Producing Data 產生資料. 3.1 Designing Samples 3.2 Designing Experiments. 動機. 從 ( 少量 ) 的樣本 (samples) 推估母體 (population) 的特性 選用可代表母體的樣本 以儘可能不干擾母體的情況下取得資訊. 觀察 vs. 實驗. 觀察性研究 (observational study) 。 對每一個體僅做觀察並量測有興趣的變數,並不試圖影響反應值。 抽樣調查 (sample survey) 。 實驗性研究 (experimental study) 。

Download Presentation

Chapter 3 Producing Data 產生資料

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapter 3Producing Data 產生資料 3.1 Designing Samples 3.2 Designing Experiments

  2. 動機 • 從(少量)的樣本(samples)推估母體(population)的特性 • 選用可代表母體的樣本 • 以儘可能不干擾母體的情況下取得資訊

  3. 觀察 vs. 實驗 • 觀察性研究 (observational study)。 • 對每一個體僅做觀察並量測有興趣的變數,並不試圖影響反應值。 • 抽樣調查(sample survey)。 • 實驗性研究(experimental study)。 • 對每一個體給予特定的處理(treatment),再觀察並量測有興趣的變數的反應值。 • 採用隨機比較性實驗(randomized comparative experiments)。

  4. 例3.1 • 幫助接受社會救濟的母親找工作。 • 欲了解參加工作訓練計劃的母親是否較容易找到工作。 • 因為我們無法在觀察性研究時控制被觀察者的年齡、學歷、身體狀況等會影響找工作的背景因素。觀察性研究無法告訴我們該政策的效果。

  5. 混合(Confounding)效果 • 兩個或兩個以上之變數(解釋變數或隱藏變數)對反應變數的影響無法區別時,稱為混合(Confounding)(又稱交絡)效果。 • 例如:接受職業訓練和就業輔導的效果,與受補助者本身的背景(教育程度及年齡等)的效果無法區別。 • 一般多以較複雜的實驗設計方法,來達到區隔效果的目的。

  6. 3.1 Designing Samples抽樣設計

  7. 母體與樣本 • 欲推論的所有範圍稱為母體(population) ,從母體中選出的部分個體,我們據以獲取資料,稱為樣本(sample)。 • 選擇樣本的方法稱為樣本設計(sample design)。

  8. 自發性回應樣本與方便抽樣 • 自發性回應樣本(voluntary response sample):主動對議題表達意見。 • 如Call-in,網頁問卷調查等。自發性回應樣本多數表達較強烈意見,因此多有偏差。 • 方便抽樣(convenience sampling):依調查的方便主觀選取樣本。 • 如街頭訪問,賣場問卷調查等。因主觀選取的地點與方法而有不同程度的偏差意見。 • 偏差(bias):樣本設計若造成系統性的傾向於某些結論,則稱為偏差。

  9. 用機率選取樣本 • 母體中每一個體被賦與一已知機率(0~1),根據個體的已知機率選出的樣本組,稱為機率樣本(probability sample)。

  10. 簡單隨機樣本(Simple Random Sample) • 樣本數為 n的樣本組,若母體中每一個體被選到的機會一樣,且每一樣本數為 n的樣本組都有相同的機會被選到,稱為簡單隨機樣本(Simple Random Sample, 縮記為SRS): 。 • 簡單隨機樣本是一種機率樣本,機會一樣。 • 多以電腦程式、軟體選取或以隨機亂數表(table of random digits) 選取。

  11. 系統隨機樣本 • 系統隨機樣本(systematic random sample):樣本數為 n的樣本,母體的總數為 N。令 N/n = k,1~k中隨機選出一數 a,則{a, a+k, a+2k, …, a+(n-1)k}為一組樣本數為 n的系統隨機樣本。 • 每一個個體被選到的機會一樣。 • 但每一組樣本數為 n的樣本未必有相同的機會被選到。

  12. 簡單隨機樣本的選取 • 步驟1:編號,母體中每一個體給一個號碼。 • 步驟2:查表,使用隨機亂數表選號。 • 30個企業體中選五個 • 步驟1 :列冊編號 • 步驟2:查表:130行資料為 • 69051 64817 87174 09517 84534 06489 87201 97245 • 前10組 2位數為 69 05 16 48 17 87 17 40 95 17 • 00, 31~99略去,選 05, 16, 17, 17, 17,17重複繼續 • 再10組 2位數為 84 53 40 64 89 87 20 19 72 45 • 補選 20, 19,最後選出05, 16, 17, 20, 19。

  13. 分層樣本(Stratified Sample) • 分層樣本的選取 • 步驟一:將母體中每一個體,依有特別興趣,或是有接近性質為標準,分為若干群,稱為層(stratum)。 • 步驟二:每層各取一個SRS,全部合起來就是分層樣本。

  14. 歌曲著作權使用費的分配 • 作曲家組織(ASCAP)每年向廣播電台收取播曲權利金$ 435百萬(每年播放53百萬小時歌曲),將分配給作曲家會員。 • 將所有電台依社區種類(都會區、鄉村等) 、地區(新英格蘭、太平洋等)及付出權利金額度(反應電台聽眾數)等特性分成432層。 • 每層隨機選幾台隨機錄音數小時,共錄音6萬小時。由專家辨認所有歌曲的作曲作詞者,記錄後依比例分配權利金。

  15. 多階段樣本(Multistage Samples) • 使用多階段抽樣設計(multistage sample design)取得的樣本。 • 常用於全國性家戶調查 • SRS 樣本分散太廣,非電話調查不易。 • 母體結構複雜,代表性樣本不易取得。

  16. 多階段樣本實例 • 全國性家戶調查 • 步驟一:將美國分成2007地理區域,稱為主要樣本單位(Primary Sampling Units, PSUs)。選出754 PSUs,包括428個人口最多之PSUs ,其餘隨機選出。 • 步驟二:選出的每個PSU分為若干小區(blocks),各小區依種族等因素分層,選出分層樣本(小區)。 • 步驟三:選出的小區中依各戶相近程度每四戶成一集群(cluster)。隨機選出集群調查。

  17. 抽樣調查應注意事項 • 未涵蓋(undercoverage) • 母體資料不完整 • 部分族群無法聯絡,以致遺漏 • 如電訪中之住校生、犯人與街頭游民(homeless) • 遺漏之族群可能較貧窮 • 無回應(nonresponse) • 聯絡不到或拒答 • 此為較嚴重的偏差來源 • 回應偏差(response bias)

  18. 問卷用詞效果 • 拋棄式尿布製造商贊助的調查 • It is estimated that disposable diapers account for less than 2% of the trash in today’s landfills. In contrast, beverage containers, third-class mail and yard wasters are estimated to account for about 21% of the trash in landfills. Given this, in your opinion, would it be fair to ban disposable diapers? • 僅提供有利資訊

  19. 問卷用詞效果 (續) • 猶太人大屠殺的意見調查 • 1992年第一次問卷調查 • 問題為“Does it seem possible or does it seem impossible to you that the Nazi extermination of the Jews never happened?---22%回答”possible” • 第二次問卷調查 • 問題為“Does it seem possible to you that the Nazi extermination of the Jews never happened, or do you feel certain that it happened?---1%回答”possible” • 第一次問卷問題的複雜措詞造成困惑

  20. 抽樣調查應注意事項(續) • Never trust the results of a sample survey until you have read the exact questions posed. • The amount of nonresponse and the date of the survey are also important. • Good statistical design is a part, but only a part, of a trustworthy survey.

  21. 母體的推論 • 依據機率樣本的結果,所做的母體的推論,比較不會有偏差。 • 每次樣本的結果,不可能完全相同。我們可以根據抽樣結果的機率行為,推導出推論的可能誤差有多大。 • 一般而言,機率樣本的樣本數越大,所做的母體推論的誤差越小。

More Related