1 / 40

課程二

課程二. 抽樣與測量. 什麼是變數. 變數就是樣本或母體之中有變化的部份 例如:男性或女性、教育程度、都市化、經濟成長率、競爭力 相對應:常數 例如:政治制度、領土範圍、社會價值(?). 量化與類別變數. 類別(或質化)變數:沒有順序,類別之間有質的差異 例如:宗教、地區、政黨、行業 量化變數:變數可用數字表示,代表順序或是相對的大小,甚至可計算平均值等統計。 例如:階級、幸福感、收入、教育程度. 不同性質變數. 名目 (nominal) :地區、種族、職業 … 順序 (ordinal) :教育程度、成績等第、民主化程度、發展程度

yamal
Download Presentation

課程二

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 課程二 抽樣與測量

  2. 什麼是變數 • 變數就是樣本或母體之中有變化的部份 • 例如:男性或女性、教育程度、都市化、經濟成長率、競爭力 • 相對應:常數 • 例如:政治制度、領土範圍、社會價值(?)

  3. 量化與類別變數 • 類別(或質化)變數:沒有順序,類別之間有質的差異 • 例如:宗教、地區、政黨、行業 • 量化變數:變數可用數字表示,代表順序或是相對的大小,甚至可計算平均值等統計。 • 例如:階級、幸福感、收入、教育程度

  4. 不同性質變數 • 名目(nominal):地區、種族、職業… • 順序(ordinal):教育程度、成績等第、民主化程度、發展程度 • 等距(interval):人口數、失業率、識字率… • 那一種尺度比較好? • 順序尺度資料可以當做等距資料嗎?滿意程度?

  5. 為何抽樣? • 有時不可能訪問母體中所有的個體,所以必須進行抽樣。 • 例: 台灣地區七歲到十二歲的小孩在除夕夜平均每人收了多少壓歲錢? • 石門水庫管理局想要知道水庫裡有多少魚 ?

  6. Simple Random Sample 1 • 有N個單位在U集合之中,寫成U={1,2,…,N} ,每個單位對應一個固定的值yi • 從中抽出n個樣本,每個樣本之中有相同單位數(1,…m),每一個樣本的被抽取率以P(S)表示,全部樣本的P(S)總和為1。

  7. Simple Random Sample 2 • 假設有N個單位每一次抽出n個單位做為一個樣本,則可抽出(N, n)個樣本,也就是P(S)=1/(N, n)=n!*(N-n)!/N! • 例: N=8, n=4, 可抽出70個樣本,每一個樣本的被抽取率即為1/70

  8. Simple Random Sample 3 • 樣本平均數也是母體平均數的無偏估計 • 樣本的變異數 • 母體變異數估計

  9. 二元分布 • 對母體平均值的估計= • 對母體變異數的估計=

  10. 亂數表抽樣 • 將每一個觀察值加以編號 • 依照亂數表選中一個號碼 • 每個觀察值應該有同樣的中選機率

  11. 用R抽樣 • 常態分佈下,假設平均值為0,變異數為1抽100個樣本:rnorm(100,0,1) • 單一分配下,從0到100抽100個樣本:runif(100, 0, 100)—可能有小數點。

  12. n=100 n=25 n=10

  13. SRS例 • 從1456人中抽出30個樣本,每個樣本內有20人,測量體重。

  14. 擲銅板實驗

  15. 擲兩個骰子

  16. 抽樣誤差 • Sampling error • 樣本統計與母體參數之間的差距 • 隨機抽樣可估計抽樣誤差的大小;樣本數越大,抽樣誤差越小。

  17. 非隨機抽樣1 • 偶遇樣本(haphazard sample)或便利抽樣(convenient sample),碰到誰就選誰的抽樣,做研究的人並不在乎調查對象是否有代表性,例如生物學家解剖青蛙,心理學家觀察人們對聲光刺激的反應,醫生徵求自願者做藥物反應的實驗等等。

  18. 非隨機抽樣2 • 配額抽樣(quota sampling)依照母體的人口特徵按比例分配樣本數,在配額之內進行非機率抽樣,也就是把調查對象依照特徵分類後,根據各類別的百分比每類立意選樣至額滿為止。

  19. 非隨機抽樣3 • 立意選樣(purposive sampling)或判斷選樣(judgment sampling),這是經由專家主觀判斷,立意選定他們認為「有代表性」的樣本來觀察。

  20. 非隨機抽樣4 • 雪球抽樣(snowballed sample)先找到原始受訪者,然後再從受訪者所提供的資訊找到其他受訪者。

  21. 抽樣偏差1 • Sampling bias • 來自非隨機抽樣 • 也會來自隨機抽樣,如果樣本涵蓋率不足。 • 如果樣本無偏差,抽樣誤差的平均值應該為0。

  22. 抽樣偏差2 • 如果每一樣本的被抽取率不等,可能會有抽樣偏差。 • 例如:有一支以上電話的人容易接到電話訪問。 • 如果樣本被抽取與否跟某一變數有關,也可能有抽樣偏差。 • 例如:容易接觸到的受訪者也比較會回答信任他人。

  23. 其他非抽樣偏差 • 無反應 • 例如:郵寄問卷,有回信的人未必具有樣本代表性。 • 訪問中受干擾 • 例如:受訪者因為訪員使用的語言而故意回答特定的方向。

  24. 等距抽樣(1) • 把全體總數N除以樣本數n得到K,起始為隨機亂數抽出R,然後每隔K個抽出一個樣本,R,R+K ,R+2K ,一直到R+(n-1)K。 • 如果觀察值本身有分組, 則是依照各組人數從小而大排列, 然後各組內再編號以方便抽出。 • 假如我們有4800個觀察值如下表,如何抽出16個樣本? 先抽一個亂數6 ,然後每隔300就抽一個。

  25. 等距抽樣(2)

  26. 分層隨機抽樣SRS • 先把母群體的所有個體依某些特徵分類,也就是分層,然後在各層之內再進行獨立的隨機抽樣。 • 按各層佔母體的比例決定樣本數,或是每一層抽同樣的樣本數。

  27. 多階段集群抽樣(1) • 主動將樣本分成若干層, 原則為層內同質性越大越好, 層外同質性越小越好。 • 例如: 依照都市化程度分鄉鎮; 依照學院特性分科系; 依照學校特色分學校。 • 人數越多的層應該分到越多樣本(PPS);在各層之下再分段以簡化抽樣。 • 每一人的中選機率仍然會相同。

  28. 分層抽樣的平均數及變異數

  29. 多階段集群抽樣(3)

  30. 分層分段抽樣方式 • 先決定要抽出五個學院,K為1880。 • 然後抽出起始亂數為1203,落在 法學院。 接下來為文學院,最後是 社科院, 有兩個中選。 • 每個中選單位必須訪問153人, 共765人。 • 以傳播學院為例,中選機率公式為(5*2556/9404)*(153/2556)=765/9404。 • 而博士班以及碩士班中選機率皆同。

  31. 多階段集群抽樣 結果

  32. 總結 • 瞭解抽樣平均值的分佈會形成常態分佈 • 瞭解各種抽樣方式 • 瞭解各種測量尺度

More Related