第六章不等概率抽样

第六章不等概率抽样 第一节不等概率抽样概述第二节放回不等概率抽样第三节不放回不等概率抽样

第一节不等概率抽样概述 一、不等概率抽样的必要性在简单随机抽样中，总体(或层)中的每个单元入样的概率都相等。如果总体中的每个单元在该总体中的地位(或重要性)相差不多，则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单，而且相应的数据处理公式也简单。但是在许多实际问题中，我们还需要使用不等概率抽样(sampling with unequal probabilities)。

一种情况是调查的总体单元与抽样总体的单元可能不一致。另一种需要用到不等概率抽样的情况是，抽样单元在总体中所占的地位不一致。最重要的一种不等概率抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样(sampling with probabilities proportional to sizes，简称PPS抽样)。

第三种需用不等概率抽样的情况是为了改善估计量的特性。每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话，则按此进行不等概率抽样所得到的样本，用通常的比估计方法所得的估计量是无偏的。

总之，在实际工作中需要我们经常采用不等概率抽样。另外，从上面列举的情况也可看到，凡需使用不等概率抽样的场合，必须提供总体单元的某种辅助信息，例如每个单元的“大小”度量Mi或辅助变量Xi等。

二、不等概率抽样的主要分类 不等概率抽样可按多种原则进行分类。鉴于不等概率抽样同时会带来目标量估计及其方差估计的复杂性，可分为放回抽样：每次在总体(或层)中按一定概率抽取一个单元，抽取后放回总体，再进行下一次抽样，每次抽样都是独立的。不放回抽样。其代价是：由于丧失了独立性，无论是抽样方法还是方差估计，都要比放回抽样繁复得多。

另一种分类是：视每次抽样(放回抽样的情形)概率或每个单元的入样概率(不放回抽样的情形)是否严格地与单元的大小成比例。另外，看样本量n是固定的还是随机的。最重要的情形乃是当n固定，且上述概率与单元大小严格成比例的不等概率抽样。以后我们将这种情形的放回抽样称为PPS抽样，称相应的不放回抽样为πPS抽样。

对于不放回抽样，按其样本单元抽取方式的不同又可分为以下几种方法： 1.逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元，这个概率通常与已经入样的单元有关， 2.重抽法。以一定概率逐个进行放回抽样，若一旦抽到重复单元，则放弃所有已抽到的单元而重新抽取，直到抽到规定单元数且所有入样单元都不同为止。 Back

3.系统抽取法。将总体单元按某种顺序排列，且将规定的单元入样（或其倍数）累计起来，并确定抽样间隔，在这个范围内产生一个随机数以确定初始入样单元，然后按上述抽样间隔确定其余的样本单元。 4.全样本方法。对每个可能样本规定一个被抽中的概率，按这个概率一次抽取整个样本。 Back 9

三、不等概率抽样的特点 不等概率抽样的主要优点是由于使用了辅助信息，提高了抽样策略的统计效率，与简单随机抽样甚至与分层抽样相比，能显著地减少抽样误差。

不等概率抽样有以下的缺点： 抽样框中的所有单元，都要有高质量的、能用作大小度量的辅助信息；抽样框的创建比简单随机抽样和系统抽样成本高，更复杂，因为需要度量和存储总体中每一个单元的大小；并非在任何情况下都能使用，因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量；抽样及估计（特别对不放回抽样）相当复杂；当单元大小度量不准确或不稳定时不适用，此时更好的办法是将单元按大小分组并使用分层抽样。 Back

第二节放回不等概率抽样 一、多项抽样多项抽样是一种最简单的不等概率抽样。它是从容量为N的总体中有放回地进行独立抽样，每次抽样中，使抽到第i个单元的概率为Zi，i=1，2，…，N，，连续抽n次，从而抽到n个单元。

若记为总体中第i个单元在n次抽样中被抽到的次数，显然对每个i都有：，且。作为随机变量（，，…），它的联合分布即是以下的多项分布：这就是多项抽样这个术语的来源。

根据多项分布的性质，有 当每个单元具有一个说明其大小或规模的度量时，每个单元在每次抽样中的入样概率与单元大小成比例，称这种特殊的多项抽样为放回的与大小成比例的概率抽样，简称PPS抽样。

二、PPS抽样 PPS抽样是与大小（或规模）成比例的概率抽样，是一种使用辅助信息从而使入样概率不相等的抽样技术。如果总体单元的大小或规模变化很大，且这些大小是已知的，这样的信息就可以用在抽样中，以提高统计效率。如果单元大小的度量是准确的，而且所研究的变量与单元的大小相关，PPS抽样能极大地提高精度。但如果大小的度量不大准确，最好按大小分组并使用分层抽样。

PPS抽样的入样概率。如上所述，PPS抽样时可取为第i个单元的入样概率，其中是总体中所有单元的“大小”之和，为第i个单元的大小。

有时，关于单元的大小 只是约略知道或这个“大小”并不是用单元所含的次级单元数来表示的，而是用其它有关尺度来计量。此时，设第i单元大小的计量尺度为，则有：这时的PPS抽样也称作PPZ抽样。

三、多项抽样的实施方法 如何抽取一个不等概率样本呢？有三种主要方法：代码法、系统法及随机系统法。以下的讨论以PPS抽样为例，并假定单元大小皆为整数。

（1）代码法(累计和法，随机法或汉森—赫维茨法) 设N不太大，且（或）为第i单元大小的度量，且为整数，对总体中的每个单元计算累计大小，得到总体所有单元代码的累计和，对总体中每个单元确定与它相对应的代码范围；在1到总的累计大小范围内抽取一个随机数，该随机数相应的代码范围中的单元即为入样单元。重复上述步骤，直到抽得n个单元为止。

PPS抽样时，单元的代码如下表：

（2）拉希里法（二次抽样法） 代码法要将累计，在N不太大时是适用的，但当N很大时，就很不方便。此时可用Lahiri（拉希里）1951年提出的方法。令每次抽取一个范围内的随机数及范围内的随机数m，若，则第单元入样；否则,重抽。此时，第i个单元的入样概率与成正比，从而。重复这一过程，直到抽够所需的个单元。

（3）系统PPS抽样方法 对总体中的每个单元，计算累计大小；对总体中每个单元确定与它相对应的代码范围；确定抽样间隔k=总累计大小/n；在1和k的范围内确定一个随机起点r；与代码r，r+k，r+2k，…，r+（n-1）k所在范围相对应的单元入样。注意，当r+（n-1）k超过总累计大小时，应使用圆形系统抽样中的模余数法。

（4）随机系统抽样法 在这种方法中，名录在系统抽样前要进行随机排序。如果完全按原来的排序，会把一些可能的样本排除在外。在上面介绍的系统抽样的例子中，不可能把单元3和4同时抽入同一个样本。把名录重新随机排列后会增加潜在的可能抽到的样本数量。实际上这些方法都有些问题。例如，对系统抽样法或随机系统抽样法，一个大小大于抽样间隔的单元，就有重复被抽中的可能。只有把这些大单元放入单独的一个层，并独立地对它们进行抽样，才能克服这个问题。另一个问题是估计值的抽样方差估计比较困难。

四、估计量 对于多项抽样，由于抽样是不等概率的，每个样本单元的观测值就不再是“平等的”，因此对于总体参数的估计与等概率抽样不同。汉森—赫维茨提出，如果是按为入样概率的多项抽样抽得的样本指标值，相应的为，则总体总和Y的无偏估计量如下：

且若n〉1，则的无偏估计量为

对于PPS抽样，，所以有 其中是第i个样本单元的观测值，例如商店的年销售额，而是该单元的大小，例如商店的员工人数，则即是第i个商店人均年销售额。对n个取平均即是样本商业网点人均年销售额的平均，将此数乘以，即该地所有商业网点的员工总数，即可获得该地商业销售总额的估计。

举例： 下表是某系统全部N=36个单位上一年职工人数及当年职工人数的数据，以为单位大小的度量，对单位进行PPS抽样，n=6，估计全系统当年职工总人数Y，并与简单随机抽样做精度比较。

第三节不放回不等概率抽样 一、包含概率与πPS抽样放回不等概率抽样实施简单，数据处理也不复杂，在不等概率抽样中占有一定的地位。但是由于放回抽样有可能重复抽到同一单元，特别是个别大单元被重复抽到的可能性比较大，这就在一定程度上影响了样本的代表性，降低了抽样效率，也不易被实际工作者所接受。即使在相同样本量下，放回抽样的精度比不放回抽样的差。因此，我们仍有必要研究不放回不等概率抽样。事实上，由于不放回抽样的样本不是独立的，因此无论是实施还是数据处理，特别是方差估计，都要比放回的多项抽样复杂得多。

在放回的不等概率抽样中，每个单元的入样概率起着关键作用。在不放回抽样中，每个单元被包含到样本的概率也即入样概率及任意两个单元都包含到样本的概率都起着十分重要的作用，它们通称为包含概率。

对于固定的n包含概率满足以下性质： （1）（2）（3）

其中性质1是显然的。性质2是对每个已在样本中的单元而言的，固定了这个特定单元，总体中其它N-1个单元在样本中只可能有n-1个单元，因此其中性质1是显然的。性质2是对每个已在样本中的单元而言的，固定了这个特定单元，总体中其它N-1个单元在样本中只可能有n-1个单元，因此其中最后一个等式利用了性质1。性质3则直接利用性质2：

与放回的PPS抽样类似，对于不放回不等概率抽样，我们最感兴趣的是与单元大小成比例的情形。若仍记，则由性质1有：以后我们将这种不放回的与单元大小成比例的概率抽样称为πPS抽样。

严格的πPS抽样实施起来非常复杂。事实上，只有当n=2时，才有一些简单且实用的方法。在不放回抽样的情形，如果抽选的单元多于一个，要使入样概率与单元大小成正比以及对调查估计值的误差进行估计都比较复杂。在用不放回πPS抽样抽取多于两个单元时，情况就更加复杂。实际上，这仍是一个需要进行认真研究的问题。除了实施方面的原因外，当n大时，的计算也极其困难，而这对于方差估计是不可少的。

二、霍维茨—汤普森估计量及其性质 对不放回的不等概率抽样，总体总和Y的估计采用霍维茨（Horvitz）与汤普森（Thompson）提出的以下估计量：注意这个估计量与多项抽样的汉森—赫维茨估计量非常相似。事实上，对于πPS抽样，由于，与相应PPS抽样的完全一致。

霍维茨—汤普森估计量具有如下性质： （1）若，则是Y的无偏估计，且它的方差为：当n固定时，又有

（2）若，则 是的无偏估计。又当n固定时，以下的耶茨（Yates）—格伦迪（Grundy）—森（Sen）估计量也是的无偏估计：

三、n=2的严格πPS抽样 对于πPS抽样，由于作为总体总和的霍维茨—汤普森估计量的形式相当简单，因此就应用角度来说，是否便利主要在于它的实施方法以及的计算。当n=2时，有几种比较实用的方法（但在具体应用中，n=2并不是一个十分严重的限制）。这些方法常用在对总体分层，在每层中抽取两个样本单元的情况。

（1）布鲁尔（Brewer）方法 该方法要求对每个i，都满足，即总体（层）中的最大单元必须小于全部单元大小总和的1/2（若不然可以将这个“特大”单元作为必调查的单元）。两个样本单元采用逐个抽取法抽取：第一个单元按与成比例的概率抽取；第二个单元则在剩下的N-1个单元中按与成比例的概率抽取。

（2）德宾（Durbin）方法 两个样本单元仍用逐个抽取法抽取。第一个样本单元以概率抽取，设抽到的是单元i；第二个样本单元则按与成比例的概率抽取。由于此时的，且与布鲁尔方法的相等，因此德宾方法与布鲁尔方法实际上是等价的。应用德宾方法也要求对每个i，都满足。

四、n>2的严格πPS抽样 n>2的严格πPS抽样要比n=2的情况复杂得多，即使可以实现，的计算也相当复杂。下面仅介绍三种方法。（1）水野（Midzuno）方法这也是一种逐个抽取方法，关键是第一个样本单元的抽取，它是以概率抽取的。在抽取第一个单元以后，在剩下的N-1个单元中不放回地等概率抽取n-1个单元。

（2）布鲁尔（Brewer）方法 这是n=2的布鲁尔方法在n〉2情形的推广，也采用逐个抽取法。第一个单元是以与成比例的概率抽取。在第r次抽取时，以与成比例的概率从当时尚未入样的单元中抽取一个单元。

（3）拉奥（Rao）—桑普福特（Sampford）方法这种方法是先以的概率抽取第一个样本单元，然后以与成比例的概率有放回地抽取n-1个单元（设所有的）。一旦有单元被重复抽中，则放弃所有已经抽到的单元重抽，直到抽中的n个单元都不同为止。这种方法的也比较复杂，需要通过计算机计算。

五、n>2的两种非严格的πPS抽样 当n>2时，严格的πPS抽样比较复杂，特别是在对包含概率的计算上。为此统计学家研究了一些非严格的πPS抽样方法。（1）莫蒂（Murthy）方法（2）拉奥（Rao）—哈特利（Hartley）—科克伦（Cochran）方法

本章内容讲授结束

第六章 不等概率抽样