380 likes | 555 Views
第七章 整群抽样. 若总体可分为 N 个 初级单元 (称为 群 ),每个初级单元包含若干次级单元。按照某种方式从总体中抽取 n 个初级单元,对这些单元中的所有次级单元全部进行调查。这种抽样方法称为 整群抽样 。. 在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。.
E N D
第七章 整群抽样 若总体可分为 N个初级单元(称为群),每个初级单元包含若干次级单元。按照某种方式从总体中抽取 n个初级单元,对这些单元中的所有次级单元全部进行调查。这种抽样方法称为整群抽样。 在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。
采用整群抽样调查的原因有二。其一是在某些情况下,往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中,如果不是以居委会为群进行整群抽样调查,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑,也得采用整群抽样调查。
整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。 2、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些。
例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。 当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元之间的差异应当大(注意:这一点与分层抽样中总体内层的划分有着极大的差别),这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元。
——表示第 群中第 个次级单元 ——表示样本中第 群中第 个次级单元的观测值 倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素。 §1 群大小相等的整群抽样 首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等,假定关于群的抽取是随机无放回的。 首先引进一些必要的记号:
—第 群总和 —第 群平均值 —总体平均值 —总体差异平方和 —群间差异平方和 —群内差异平方和 将 改为 ,则为相应的样本指标值
(8.1) (8.2) 可作为 的估计,但不是无偏估计。这是因为次级单元是 在抽到的群内普查,此时样本不是简单随机的。 由于群的选取是简单随机的,因此 与 分别是 与 的 无偏估计,于是得到 的无偏估计为: (8.3) 将 改为 , 代替 ,由于是整群抽样, 仍为 ,不难 得到样本方差平方和的关系式: 它们之间的关系为:
当 相当大时,该估计可近似写为: (8.4) 从(8.2)式可知,若 n 也足够大的话, 也可写成(8.4)形式, 此时, 就可以看作是 的近似无偏估计了。 再引进一个群内相关的记号 ,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个 有关。 的定义为: (8.5)
(8.6) 计算可得 , 在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 用群内方差 与群间方差 来表示: (8.7) (8.8) 具体计算得 当N足够大时,近似有
又 (8.9) (8.10) 由(8.8)以及(8.10)可得 的估计 (8.11) 由(8.11)也可以发现,考虑N相当大时,当 , 与 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果 ,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差! 当N足够大时,近似有
,表明群内单元的差异远比群间差异大。 由(8.11)可知, 的情况最多只能到 ,此时 群间毫无异,任意抽取几个群都可以作为总体的真实写照 因此, 的取值范围应当在 之间。 总体平均数 的无偏估计是 (8.12) (8.13) 1、估计量及其方差 其方差为: 当N足够大时,近似有
另外,我们还可以提供一个关于 的无偏估计: (8.16) 总体总和 的无偏估计为: 其方差为:
在实际问题中,具有某种特征的(次级)单元在总体中 的比例 的估计常用整群抽样,不仅方便而且效率也高,在 各群大小相等的情况下,利用前面 的讨论立即可得 的估 计量及其方差。 ——总体百分数 ——第 群百分数 ——样本百分数 方差 的无偏估计为: 总体百分数的无偏估计为:
单元号 j 群号 i 3.4 5.9 6.3 13.2 3.3 0.1 2.5 11.8 11.4 2.2 1.8 1.7 2.9 2.9 4.6 0 4.9 7.6 15.5 2.4 3.1 2.5 18.9 6.9 0.5 8.4 17.5 47.5 49.9 13 0.4 0.4 0.8 0.8 0.4 1 2 3 4 5 例题:试根据下表所得的某林场抽取的 5个样本群的林木蓄 积量资料,对该林场每块 0.04公顷的林地上的平均蓄积量及 该林场的每公顷蓄积量进行估计,并给出估计误差。如果一 棵林木能够出材 3 立方米以上就为成材林木,求该林场林木 的成材率估计及其误差。(假设共分为N=100个群)
方差为 由表可得 分别为:1.68,3.5,9.5,9.98,2.6 解: N=100,n=5,M=5 该林场每块 0.04公顷的林地上的平均蓄积量的无偏估计是
标准差为 标准差为 方差为 该林场每公顷的林地上的平均蓄积量估计为 故该林场林木的成材率估计为:56%
标准差为 即9.54%
已经指出在整群抽样中,如何划分群、群的大小规模如 何控制对于估计的精度颇有影响,这就涉及到设计效应的讨 论。根据设计效应的定义,我们必须考虑与整群抽样同等规 模的简单随机抽样,由于整群抽样调查的对象是次级单元, 因此考虑在拥有NM个次级单元的总体中抽取容量为nM的简 单随机样本,计算所得的平均数(为统一且方便起见,记为 )的方差为: (8.17) 2、设计效应 群大小相等的整群抽样的设计效应为:
(8.17)式右端 是显然的,否则就不是整群抽样。实 际问题中,很难做得划分的群互相之间很少差异,因此一 般有 ,这就是说,整群抽样的精度在大多数情形下 要比抽同样数量的次级单元的简单随机抽样的精度低。倘 若要想获得相同的精度,那么整群抽样的样本量必须是简 单随机抽样样本量的 倍。这个事实提供 给我们确定整群抽样的样本量的方法。 例8.1对全国成年人人体尺寸测量,若以工作单位为现成的 群划分,这些单位一般不是等规模的,以平均大小 人 计算,通过少量样本的预测,若单位内同性别人的群内相关 估计 。根据精度要求,简单随机抽样需要样 本量为6147人,那么整群抽样需要多少人才能达到同样的估 计精度?
整群抽样需要人数 人 约等于 个群 在实际操作中,很少有各群M相等的情况,那些 相差 不大的情况就常常作为群大小相等进行处理,通常的手法是 以群的平均大小 代替公式中的M 。 §2 群大小不等的整群抽样 如果各群大小差异甚大,那么它们在总体中所占的地位 也各有不同,对群采取用简单随机抽样明显地效果欠佳。
——表示第 群中第 个次级单元 ——表示第 群含有的次级单元数 ——表示样本中第 群中第 个次级单元的观测值 ——表示总体中次级单元总数 —第 群平均值 —第 群总和 —总体平均值 各群总值的平均值 同样先引进一些记号:
1、总体均值 的简单估计 (有偏) 2、估计量方差的估计: 一、简单随机抽样时的估计 (一)简单估计(适用于群规模相差不大) (二)、加权估计 1、总体总和的估计(无偏):
对总体均值 采用以群大小 为辅助变量的比率估计 比率估计为: 2、估计量的方差: 3、估计量方差的无偏估计: (三)比率估计
有偏估计量,但当 大时,偏倚很小,看成近似无偏的。 方差近似为: 方差的估计:
(四)总体比例的估计 1、比例估计量 2、估计量的方差 3、估计量方差的估计:
独立有放回地从 N 个群中抽取 n 个群,每次抽取一个 群,第 个群被抽到的概率为 相应抽到的群的群内总和记为 ,群大小记为 则总体总和 的估计量为: (8.18) 其中 二、对群进行不等概率抽样 (一)对群实施 pps 抽样
(8.20) 根据第六章关于H—H统计量的讨论, 是 的无偏估计, 其方差为: (8.19) 它们的一个无偏估计为:
(二)对群实施严格的 抽样 其中 与上一章的 抽样情况完全一样,若设第 个群的 入样概率为 ,采用 Horvitz—Thompson 估计: 若用布鲁尔或德宾方法抽取n=2个群,群和分别为 ,群的相对大小分别为 ,则 的估计为:
例 某市建筑行业集团共有48个单位,有载货汽车186辆。按每个单位的车辆拥有量成比例的概率进行放回的pps抽样,共抽10次。对抽中单位的所有车辆调查季度运量(单位:吨).样本数据如下表所示(其中有一单位被抽中2次,即 )。试估计全集团的季度总运量。例 某市建筑行业集团共有48个单位,有载货汽车186辆。按每个单位的车辆拥有量成比例的概率进行放回的pps抽样,共抽10次。对抽中单位的所有车辆调查季度运量(单位:吨).样本数据如下表所示(其中有一单位被抽中2次,即 )。试估计全集团的季度总运量。
解:本例中以单位为群,汽车为小单元。 因此全集团季度总运量 的估计为: 因而在95%置信度下,作为 的估计 的最大相对误差为
——总体百分数 ——第 群百分数 ——样本百分数 方差 的无偏估计为: 本章习题解 8-1 总体百分数的无偏估计为:
方差为 8-2 N=500,n=10,M=6 人均选修付课门数的估计为: 由表经计算可知,每个宿舍人均选修付课门数为
方差为 8-3 N=1000,n=10,M=30 箱均坏灯泡数的估计为: 坏灯泡总数的估计为:
方差为 经计算可知被抽的各箱废品率分别为 灯泡废品率的估计为