Lec. 3 抽樣設計與測量

Lec. 3 抽樣設計與測量

Part 1 抽樣設計

抽樣設計(sampling design ) • 抽樣設計的主要重點有三項: 1.有哪些機率抽樣方法?特性為何? 2.有哪些非機率抽樣方法?特性為何? 3.抽樣時要考慮哪些因素?

抽樣本質 所謂的「抽樣」(sampling)是自母群體中選取部分元素/基本單位為樣本，並且認為從選取的樣本可以知道母體的特徵。

抽樣的關鍵名詞 1. 母群體(population):一組具有共同特性的集合。 2. 母體參數(population parameters):特徵描述值。 3. 隨機(random):照均勻原則，任其自然出現。 4. 樣本(sample):是指從母群體中所抽出的個體或元素的小集合體，抽樣(sampling)即上述動作的過程。 5.抽樣單位(sampling unit):是指構成母體群之基本單位或元素 6. 抽樣偏差(sampling bias):有意或無意抽到具有特殊特徵值得基本單位。 7. 抽樣偏誤(sampling error):樣本中包含某些特殊基本單位 8. 普查(census):研究母體每一分子。

抽樣的重要性 • 在1960年代，Demin發現「抽樣」不但比普查來得經濟，且比普查所得結果品質來得好。其主要的優點有: 1.可以避免收集到有缺失、可疑、有誤的資訊。 2.省時、快速地得到研究結果。

「好」的樣本特性 1.正確性(accuracy):指樣本能否代表母體群特徵值之程度。 2. 精準性(precision):由於所抽樣的過程會有隨機變異產生，使得樣本與母體間有抽樣誤差，導致樣本與母體群很難完全一致吻合。所謂「精準性」是指標準誤差(standard error)之估計值，值越小表示精準性越高。

抽樣程序 1.先釐清研究的母體群。 2.設法取得一份完整而正確的抽樣單位之母體群體名單。 3.根據這份母群體名單，採用適的得抽樣技術，抽取具有代表的樣本。 4.要抽取夠大的樣本，方能代表母體群體的特質。

抽樣程序 1.選定母體群 2.選擇抽樣架構 (名冊) 3.選擇抽樣方法 6.決定樣本大小 5.界定誤差範圍 4.選擇抽樣單位

抽樣的種類 • 大約分為兩類:隨機抽樣與非隨機抽樣。 • 隨機(機率)抽樣係採用隨機作為選取樣本的控制 • 非隨機(機率)抽樣則改以研究的判斷作為樣本的選取控制，而非隨機採樣則無法說明每一個抽樣單位被抽取的機率。

抽樣的類型(種類) 抽樣基本型態機率型非機率型元素類型未限制抽樣簡單隨機抽樣簡便抽樣複雜隨機抽樣計畫抽樣限制抽樣 1.判斷抽樣 1.系統抽樣 2.配額抽樣 2.分層抽樣 3.滾雪球抽樣 3.集群抽樣 4. 雙重抽樣

隨機抽樣方法 • 一、簡單隨機抽樣(simple random sampling) • 二、系統抽樣(systematic sampling) • 三、分層抽樣(stratifies sampling) • 四、集群抽樣(cluster sampling) • 五、雙重抽樣(序列抽樣法或多階段抽樣法)

簡單隨機抽樣 • 此方法可以採用摸彩法，或利用亂數表，僅限於構成群體的個體均屬於同質(Homogenous)時使用較佳。 • 適用環境 • 母體中每一元素都有已知非零的選擇機率 • 母體每一元素被選擇機會皆已知且相等 • 構成群體的個體均屬於同質時使用較佳

系統抽樣 1.在資料上記編號，確定資料總數、抽樣比率。 2. 從母體中第1至k個值之中隨機抽取一個樣本，以後每隔k個元素抽取一個。例如：統一編號、顧客帳戶的最後幾個數字 3.抽樣區間(sampling interval):兩個樣本間的標準距離。

系統抽樣(續) • 優點:簡單，富彈性 • 問題:抽樣的區間與樣本區間若相同，則很容易產生誤差。 • 問題之避免 • 抽樣前隨機重排母體 • 抽樣中連續數次更改隨機開始的數字

分層抽樣 1.取樣前，根據與研究目的有關已有的某種標準，將群體中的個體分為若干類，每類稱一為一層;各層彼此互斥。 2.在各層隨機取出個體作為樣本。 3.層與層間主要變數均數差異最大(層與層之間為異質)，層內變異數最小(層內元素同質)。通常分層數愈多愈能達上述目標,但分層數若超過6個以上,則此法的效益將顯著降低。

分層抽樣示意圖 母體群樣本抽樣

選用分層抽樣的理由 • 增加樣本的統計效率 • 提供各次群體足的分析資料 • 不同的層次可使用不同的研究方法及分析步驟

群集抽樣 • 應用於當抽樣的母體群非常的大，或母群體之抽樣單位分布非常廣且散時，或個別元素組成的抽樣主體不易取得。特性為下列: 1.以集(cluster)為單位，而不以個體為單位。 2.將群體按某種標準(如班級、地區)分為若干類，稱之為群體，對群體隨機取樣抽取若干小團體。 3.對小團體中各成員全部加以訪問。

集體抽樣示意圖 群體的成員被抽取的樣本 S1,S2,S3,……….S8,S9,S10 沒有被選取中群集一 S11,S12……..…S19,S20 S11,S12……..…S19,S20 群集二 S21,S22………..S19,S20 沒有被選取中群集三 S31,S32,……….S39,S40 群集四 S31,S32,……….S39,S40 S41,S42.….…….S49,S50 沒有被選取中群集五

分層抽樣與集群抽樣的比較

雙重抽樣(序列抽樣法或多階段抽樣法) • 理由 • 當母體非常大時，採用簡單隨機抽樣法，其抽出率相對的會很小，如此母體參數估計的準確度相對的也會變小；同理，執行分層機抽樣法時，為了將相類似的元素放在同一個層級中則層級個數勢必也相對的變大，如此便失去分層的意義；同理，執行集群隨機抽樣法時，每個群集的群集大小勢必也相對的會很大，如此，群集抽樣便失去了同時達到經濟與準確的目的了。 • 方法 • 將母體分成若干群體，用隨機方式抽取若干群體，再依據群體所含訊息選擇次樣本。 • 適用場合 • 經濟效率要求較高時

雙重抽樣法範例 • 問題 • 主計處想調查全國人民的平均年所得 • 方法 • 先以全國各個縣市為抽樣單位(第一階段)執行隨行抽樣，被抽出之縣市稱為第一抽樣單位(primary-stage sampling units；psu) • 再以各個鄉鎮為抽樣單位(第二階段)而在第一抽樣單位中被抽出的鄉鎮稱為第二抽樣單位(secondary-stage sampling units；ssu)

地區抽樣 一、簡單一階段地區抽樣(one-stage sampling) 從一城市所有N街道區，隨機抽選取n街道為樣本區後進行普查。二、簡單二階段地區抽樣(two-stage sampling) 從一城市中所有的N街道區，隨機抽選n街道為樣本街道後，從樣本街道中抽取某一特性之樣本(例如，門牌號為雙號)。

一階地區抽樣 街道中的住戶被抽取的樣本 S1,S2………..,S39,S40 街道一(40戶) S1,S2………..,S39,S40 S41,S42……….,S99,S100 沒被抽中街道二(60戶) 街道三(50戶) S101,S102,……..S149,S150 沒被抽中 ……………. ……………………… ………………………. SN1,SN2………SNN 街道N(56戶) SN1,SN2………SNN

二階地區抽樣 被抽取的樣本(門牌為雙數) 街道中的住戶 S1,S2………..,S39,S40 街道一(40戶) S2,S4,S6……..,S38,S40 S41,S42……….,S99,S100 沒被抽中街道二(60戶) 街道三(50戶) S101,S102,……..S149,S150 沒被抽中 ……………. ……………………… ………………………. SN1,SN2………SNN 街道N(56戶) SN2,SN4………SNN

地區抽樣(續) 三、單位大小不等的二階段地區抽樣先以大地區(州或縣)為單位，從中隨機挑選幾個“大地區”(州或縣)中具有某些特性之樣本。缺點為容易估錯樣本。

非隨機抽樣 • 根據人為意志從抽樣母體中抽出比較具有代表性的樣本，故又稱為意志抽樣或計畫抽樣法(purposive sampling) 。 • 非隨機抽樣，最大的優點，就是簡單方便，但所抽到的樣本缺乏代表性，故此研究設計外部效益較差。

非機率抽樣使用理由 • 若一研究不需概化(generalize)整個母體，就不需要考慮樣本是否充分反映母體。 • 成本與時間因素 • 理論上機率抽樣法較優，但會受限於人為因素的影響。

非隨機抽樣(續) • 可分為下列四種: 一、便利抽樣(convenience sampling):如街頭訪問。二、判斷抽樣(judgment sampling):又稱[意志(purposive)抽樣]，它是依據研究者的主觀認定，去選取最能適合期研究目的之樣本。三、配額抽樣(quota sampling) 四、滾雪球抽樣(snowball sampling) 1.先找幾個[初始]樣本幫抽樣的種子。 2.在以這些[初始]樣本推至相關樣本單位。

便利抽樣 • 方法 • 研究人員自由選擇遇見的任何人。 • 特性 • 最容易 • 最便宜 • 最不可靠 • 適用於探索性研究之初期訊息取得

判斷抽樣(立意抽樣，purposive sampling) • 方法 • 根據研究人員主觀設定某些標準的抽樣法。 • 特性 • 適用於探索性研究之初期訊息取得

配額抽樣 • 方法研究人員遵照某些既定的標準來抽樣。 • 用以分配的屬性須符合兩點要求可用來推估母體分配與研究主題有直接關聯 • 適用環境民意調查，行銷研究…等

滾雪球抽樣 • 方法先找幾個初始樣本當抽樣的種子，再以這些樣本外推至相關樣本單位。 • 適用環境研究對象不易辨識但可循特定網路尋找時適用。 (吸毒文化,幫派活動…)

抽樣方法的選擇 1.成本:隨機抽樣成本大於非隨機抽樣。 2.時間:隨機抽樣所花費時間大於非隨機抽樣。 3.母體特性資訊。 4.研究目的。

抽樣應注意事項 一、樣本框架 (Sampling frame)的問題: 例如:有人宣稱[政治大學的水準高]，那我們就應注意其研究的框架是國內各大學?或歐美各大學?許多的MIS研究為何要選取這個框架。大部分是以便利為原則來選定當地的協會會員，或廠商客戶，一些學生為基本框架。

抽樣應注意事項(續) 二、樣本的代表性問題: Pinsonnesult & Kraemer(1993)發現有70%的MIS調查研究利用非系統的抽樣方法，另外Grover等人(1933)也發現，只有58.6%的調查研究有樣本的代表性的說明。在研究調查中如果樣本的表性有問題，則此研究的概化或所謂的外部效度會受到很大的質疑，即使樣本數目再多也沒也用。

抽樣應注意事項(續) 三、樣本大小的問題: 樣本數100至200左右，衡量的精確性可大幅提高(Flower，1984)

抽樣應注意事項(續) 樣本大小考慮的準則: 1.研究的特殊性。 2.研究的類型。 3.研究的假設。 4.經費的來源，與可用的人力。 5.研究結果愈重要，樣本則要愈大。 6. 研究的變數愈多，或無法控制的變數愈多時，則所需的樣本則需要大。 7.資料的收集的樣本異質性愈高，或不一致愈大，則所需的樣本就要愈大。 8.要求的研究結果之正確性/精確度愈高，則所需的樣本愈大。 9.母體群的大小:母體群愈大，則所需的樣本比例就要愈小。

S /  n S /  n 單一樣本大小的公式根據中央極限定理，Z=常態分配值，若我們欲使研究達到95%的信賴區間，則 Z=1.96。 - e X Z= = S=樣本標準差 n= 我們所需的抽取之樣本個數 =母體平均數 e=樣本平均數減去母體平均數

Z22 n= e2 單一樣本大小的公式(續) • 由上述公式可以推導出所需樣本空間n的大小: 1.當母體群變異數2已知時 (1)母群體變異數2愈大，則所需樣本數n愈大。 (2)可容忍誤差e愈小，則所需樣本數n愈大。 (3)欲使信賴水準愈大，則z值愈高，則所需樣本數n愈大。

單一樣本大小的公式(續) 2.當母體群變異數2未知時: 母體群變異數2未知時，我們可以採取下列方式來估計變異係數: (1)以過去的研究調查資料來估算。 (2)小規模研究先做個預試，以估計樣本便異數。 (3)取母群體全距/6。

單一樣本大小的公式(續) 3.當抽樣資料為離散時由於[誤差比率e]公式: 可以推算出所需樣本空間 where p = 1 - q e= Z * (pq/n) Z2pq n= e2

信度與效度的問題 1.要增加信度與效度，最好的方法是使用學理上驗證過的工具。 2.如果自己根據定義創造出的衡量尺度，或整合修改以前的工具，則必須非常嚴謹的設計過程。

Part II 測量

測量(Measurement)的定義 • 針對某一個特定對象、人或組織，有關某種特徵或行為，賦予其一個值，使其數值能代表構念中所代表的概念或狀況 • 根據一定「規則」將數值(或其他符號)指派給物體或事物(變數)身上之一種程序 • 三個程序： • 選擇對象─選擇可觀察的「個體或事物」 • 數值系統(numerical system) 以數字或符號代表事件的特性 • 依據「指派規則」賦予觀察值一個符號或數字此種「規則」就是“操作型定義”

測量的定義(續) • 構念─具特定意義的符號，用來表示某種物體、現象、特性、認知。未必真實存在，但可衡量。 • 概念與構念的比較概念不可衡量，構念可衡量如：“聰明”指概念，“IQ”指構念 • 構念有二種層次的定義 (1)構念型定義對構念粗淺的定義，具有一般性及彈性 (2)操作型定義將構念“操作化”，即“變數化” 即將構念轉成ECV(知識論上的對應變數)

測量的定義(續) • 例如：構念：兩人的相愛程度構念型定義：(1)關心對方的程度 (2)對方在心目中所佔的比率程度操作型定義： (1)認為對方在心目中的定義 1.先生/老婆 2.情人 3.朋友 4.陌生人 (2)用山來形容對方在你心目中的印象 1.八卦山 2.阿里山 3.玉山 4.喜馬拉雅山 (3)說“我愛你”的次數 1.0~5次 2.6~10次 3.11~15次 4.16次以上 (4)打電話給對方的次數 1.每天一次 2.每天二次 3.每天三次 4.每天四次

測量程序範例 • 研究方法課程學習成效—考試成績 • 成績為介於0~100之正整數 • 根據答題正確率給予對等比例分數

符號或數字 (M，F) 測量程序範例出席人員滿意程度實際觀察參觀人員性別分派法則非常滿意5 滿意4 沒意見3 不滿意2 非常不滿意1 若為男性M 若為女性F (1-5)

Lec. 3 抽樣設計與測量