400 likes | 522 Views
課程二. 抽樣與測量. 什麼是變數. 變數就是樣本或母體之中有變化的部份 例如:男性或女性、教育程度、都市化、經濟成長率、競爭力 相對應:常數 例如:政治制度、領土範圍、社會價值(?). 量化與類別變數. 類別(或質化)變數:沒有順序,類別之間有質的差異 例如:宗教、地區、政黨、行業 量化變數:變數可用數字表示,代表順序或是相對的大小,甚至可計算平均值等統計。 例如:階級、幸福感、收入、教育程度. 不同性質變數. 名目 (nominal) :地區、種族、職業 … 順序 (ordinal) :教育程度、成績等第、民主化程度、發展程度
E N D
課程二 抽樣與測量
什麼是變數 • 變數就是樣本或母體之中有變化的部份 • 例如:男性或女性、教育程度、都市化、經濟成長率、競爭力 • 相對應:常數 • 例如:政治制度、領土範圍、社會價值(?)
量化與類別變數 • 類別(或質化)變數:沒有順序,類別之間有質的差異 • 例如:宗教、地區、政黨、行業 • 量化變數:變數可用數字表示,代表順序或是相對的大小,甚至可計算平均值等統計。 • 例如:階級、幸福感、收入、教育程度
不同性質變數 • 名目(nominal):地區、種族、職業… • 順序(ordinal):教育程度、成績等第、民主化程度、發展程度 • 等距(interval):人口數、失業率、識字率… • 那一種尺度比較好? • 順序尺度資料可以當做等距資料嗎?滿意程度?
為何抽樣? • 有時不可能訪問母體中所有的個體,所以必須進行抽樣。 • 例: 台灣地區七歲到十二歲的小孩在除夕夜平均每人收了多少壓歲錢? • 石門水庫管理局想要知道水庫裡有多少魚 ?
Simple Random Sample 1 • 有N個單位在U集合之中,寫成U={1,2,…,N} ,每個單位對應一個固定的值yi • 從中抽出n個樣本,每個樣本之中有相同單位數(1,…m),每一個樣本的被抽取率以P(S)表示,全部樣本的P(S)總和為1。
Simple Random Sample 2 • 假設有N個單位每一次抽出n個單位做為一個樣本,則可抽出(N, n)個樣本,也就是P(S)=1/(N, n)=n!*(N-n)!/N! • 例: N=8, n=4, 可抽出70個樣本,每一個樣本的被抽取率即為1/70
Simple Random Sample 3 • 樣本平均數也是母體平均數的無偏估計 • 樣本的變異數 • 母體變異數估計
二元分布 • 對母體平均值的估計= • 對母體變異數的估計=
亂數表抽樣 • 將每一個觀察值加以編號 • 依照亂數表選中一個號碼 • 每個觀察值應該有同樣的中選機率
用R抽樣 • 常態分佈下,假設平均值為0,變異數為1抽100個樣本:rnorm(100,0,1) • 單一分配下,從0到100抽100個樣本:runif(100, 0, 100)—可能有小數點。
n=100 n=25 n=10
SRS例 • 從1456人中抽出30個樣本,每個樣本內有20人,測量體重。
抽樣誤差 • Sampling error • 樣本統計與母體參數之間的差距 • 隨機抽樣可估計抽樣誤差的大小;樣本數越大,抽樣誤差越小。
非隨機抽樣1 • 偶遇樣本(haphazard sample)或便利抽樣(convenient sample),碰到誰就選誰的抽樣,做研究的人並不在乎調查對象是否有代表性,例如生物學家解剖青蛙,心理學家觀察人們對聲光刺激的反應,醫生徵求自願者做藥物反應的實驗等等。
非隨機抽樣2 • 配額抽樣(quota sampling)依照母體的人口特徵按比例分配樣本數,在配額之內進行非機率抽樣,也就是把調查對象依照特徵分類後,根據各類別的百分比每類立意選樣至額滿為止。
非隨機抽樣3 • 立意選樣(purposive sampling)或判斷選樣(judgment sampling),這是經由專家主觀判斷,立意選定他們認為「有代表性」的樣本來觀察。
非隨機抽樣4 • 雪球抽樣(snowballed sample)先找到原始受訪者,然後再從受訪者所提供的資訊找到其他受訪者。
抽樣偏差1 • Sampling bias • 來自非隨機抽樣 • 也會來自隨機抽樣,如果樣本涵蓋率不足。 • 如果樣本無偏差,抽樣誤差的平均值應該為0。
抽樣偏差2 • 如果每一樣本的被抽取率不等,可能會有抽樣偏差。 • 例如:有一支以上電話的人容易接到電話訪問。 • 如果樣本被抽取與否跟某一變數有關,也可能有抽樣偏差。 • 例如:容易接觸到的受訪者也比較會回答信任他人。
其他非抽樣偏差 • 無反應 • 例如:郵寄問卷,有回信的人未必具有樣本代表性。 • 訪問中受干擾 • 例如:受訪者因為訪員使用的語言而故意回答特定的方向。
等距抽樣(1) • 把全體總數N除以樣本數n得到K,起始為隨機亂數抽出R,然後每隔K個抽出一個樣本,R,R+K ,R+2K ,一直到R+(n-1)K。 • 如果觀察值本身有分組, 則是依照各組人數從小而大排列, 然後各組內再編號以方便抽出。 • 假如我們有4800個觀察值如下表,如何抽出16個樣本? 先抽一個亂數6 ,然後每隔300就抽一個。
分層隨機抽樣SRS • 先把母群體的所有個體依某些特徵分類,也就是分層,然後在各層之內再進行獨立的隨機抽樣。 • 按各層佔母體的比例決定樣本數,或是每一層抽同樣的樣本數。
多階段集群抽樣(1) • 主動將樣本分成若干層, 原則為層內同質性越大越好, 層外同質性越小越好。 • 例如: 依照都市化程度分鄉鎮; 依照學院特性分科系; 依照學校特色分學校。 • 人數越多的層應該分到越多樣本(PPS);在各層之下再分段以簡化抽樣。 • 每一人的中選機率仍然會相同。
分層分段抽樣方式 • 先決定要抽出五個學院,K為1880。 • 然後抽出起始亂數為1203,落在 法學院。 接下來為文學院,最後是 社科院, 有兩個中選。 • 每個中選單位必須訪問153人, 共765人。 • 以傳播學院為例,中選機率公式為(5*2556/9404)*(153/2556)=765/9404。 • 而博士班以及碩士班中選機率皆同。
總結 • 瞭解抽樣平均值的分佈會形成常態分佈 • 瞭解各種抽樣方式 • 瞭解各種測量尺度