CPS(Current Population Survey) 介绍

CPS(Current Population Survey)介绍 中国人民大学统计学院金勇进

背景 • CPS调查始于1940年 • 国际上最著名的抽样调查项目之一 • 由联邦普查局和美国劳工统计局联合组织 • 核心数据是关于劳动力市场的信息（3月份调查） • 此外还包括与劳动力市场有关的其他主题：如受教育状况、工种更换、服役状况、兼职活动等

调查范围、对象与选择方式 • 调查范围覆盖全美国 • 对象为16周岁以上的美国居民 • 概率抽样，样本量为60000户 • 中选户中一个合格成员代表家中所有成员接受调查 • 调查于每月包含19号的那周进行 • 调查问题涉及前一周（包括12号那周）活动 • 样本轮换为4—8—4模式

样本量的变化 年份　PSU数量　样本总量（户数）　　　备注 1943 　６825000 开始采用概率抽样，覆盖１２５个县级单元 1954 230 25000覆盖453个县级单元，在样本量相同情况下估计精度提高 1956 330 40000覆盖638个县级单元，主要估计量精度提高约２０％ 1960 333 40000阿拉斯加和夏威夷进入，增加了对比的难度 1963 357 40000给人口增加迅速的地区以更充分覆盖，样本量不变情况下可靠性提高５％ 1967 449 60000可靠性提高约２０％ 1973 461 58000群规模由６户变为４户，样本更加优化 1975 616 69000满足各洲精度估计要求 1981 629 72000　　　　　　微调，继续提高精度 1996 754 50000财政经费减少，可靠性要求降低 2001 754 60000　　　　国会增加经费，样本量回升

第一节 CPS抽样设计 一、主要特征和参数设定 • CPS样本是随机样本 • 抽样时以州为总体，设计也是以州为单位的设计 • 样本量以变异系数CV及可靠性要求决定 • 参数设定：失业率期望值为6%，变异系数要求为1.8%(全国) • 显著性水平条件下，全国失业率范围在之间 • 为实现上述目标，各州的变异系数在8%~9%之间

CPS抽样的主体部分是二阶抽样： 第一阶采用分层PPS，抽出754个初级单元；第二阶采用整群系统，抽出６0000个最终单位（住户）； • 有些地区需要采用三阶抽样 • 州内住户入选概率基本相同 • 不同州内住户入选概率会有区别 • 抽样设计兼顾了国家和州两级需要

二、第一阶段抽样 涉及的工作有初级单元(PSU)的界定对初级单元PSU的分层 PSU的抽选

（一）PSU的界定 • PSU不跨州界 • PSU或者是一个县，或是相邻的两个或多个县 • 在城市，PSU按城市统计区域界定

对PSU的要求是： 面积在3000平方英里范围内；人口在7500人以上；若两者发生冲突，面积具有优先权。 • 目的:保证访员实际操作 • 目前美国的行政县、市有3141个，共分为2007个PSU；

（二）对PSU分层 • 分层标准有两个：相同的特征和相近的规模 • 有些PSU（如城市），人口密度大，则划入必选PSU ；这样，就把2007个PSU划分为二类：一类： self—representing，自代表性质的PSU，必选初级单元，共432个；另一类：Non—self—representing共1575个，将1575个划分为360层，每层约4~5个 PSU。

分层原则： １.PSU的人口规模相近２.　劳动力及其他与失业相关的经济特征相似３.　分层的主要指标有：男性失业人数，女性失业人数，女性为户主的家庭数等．４.每个非自代表的样本PSU调查45-60户，这是现场调查员的适宜工作量。

（三）PSU的抽选 432个自然进入样本； 360个层中每层抽一个PSU；一阶PSU个数=432+360=792 (1996年减少到754个)

三、第二阶抽样 • 抽选最终抽样单位USU • 每个USU是由4户组成的群 • 目的：调查地点相对集中，节省费用

使用的抽样框主要有三个： 集体户抽样框（集体宿舍、养老院等，约占总人口２％）住户抽样框　　约占总人口９８％区域抽样框（无法反映在住户抽样框中的变化，由建筑部门提供有关新建筑的信息） • 抽样方式采用整群系统抽样 • 抽取概率为1/K，K是PSU内的抽样间隔各州的K可能不同 • 关于三阶抽样的问题　　主要是人口密集的地区，可以先抽街区，再抽群

四、样本轮换 • 4—8—4轮换模式 • 该轮换模式的主要特征在任何月份，都有1/8的住户接受第一次调查，1/8住户接受第二次调查，如此下去；每个月都有新样本组代替从样本中退出的老样本组；每个月都有一个样本组在8个月的闲置后重新接受调查，一个样本组进入8个月的闲置期；

轮换设计保证每个样本单元在两个不同年份的4个相同月份中接轮换设计保证每个样本单元在两个不同年份的4个相同月份中接受调查；在连续2个月内，有3/4的样本是相同的，在连续2年中，有1/2的样本是相同的；抽样设计10年修订一次，为样本轮换，抽取时将10年间准备用于轮换的单位一并抽出备用。其他国家劳动力调查样本轮换情况后面介绍。

两次方案的衔接问题 新方案在两个人口普查年度中间（如2005，2015）7月开始，而新方案的样本抽取在前一年（如2004，2014）4月开始，新样本是逐步引入CPS实施过程的，以便保证数据的衔接

第二节　主要国家的人口就业，　劳动力调查情况第二节　主要国家的人口就业，　劳动力调查情况一.　调查实施美国（CPS）联邦普查局（Census Bureau）加拿大　加拿大统计局（Statistics Canada）英国　英国国家统计办公室社会调查部澳大利亚澳大利亚统计局日本　　日本统计局

二.　样本性质 美国：各洲独立样本加拿大：省，及重点地区英国：苏格兰运河南北抽样设计不同澳大利亚：全国样本日本：全国样本

三.　样本量 美国：６００００户加拿大：５４０００户英国：５７０００户　澳大利亚：３０５００户　日本：４００００户

四.　调查频率 美国：每月加拿大：每月英国：季度澳大利亚：月日本：月

五.　调查方式 美国：第一、五次面访，其余电话调查。加拿大：面访并直接录入笔记本电脑。英国：第一次面访，之后的四次采用电话访问。澳大利亚：第一次调查面访，其余调查则通过电话进行日本：没有查到

六.　方案设计周期 美国：１０年加拿大：无固定英国：无固定澳大利亚：无固定日本：无固定

七.　关于抽样 美国：两阶段分层抽样为主体加拿大：两阶段分层抽样英国：单阶段抽样澳大利亚：三阶段分层抽样日本：两阶段分层抽样

八.　最终单元组成 美国：４户为群加拿大：单个住址英国：单个住址澳大利亚：单个住址日本：单个住址

九.　样本轮换 美国：４－８－４模式加拿大：６in模式，即接受６次调查后永久退出英国：５ in模式澳大利亚：８ in模式日本：初级单元轮换４－８－４模式　　　最终单元轮换２－１０－２模式

几点启示： １.　抽样阶段越少越好２.　最终的抽样单元大部分为单个住址，群规模不宜大３.　抽取初级单元数量较多４.　抽取初级单元采用分层５.　不同地区有不同的抽样方案６.充分利用电话调查节约成本　

各国样本轮换图示，word版

第三节CPS的目标量估计 • 核心是确定权数问题 • 估计程序中确定权数的步骤： 1．确定样本的基础权数和特殊权数 2．根据无回答情况对权数进行调整 3．一阶段的比率调整 4．二阶段的比率调整 5．结合历史数据进行复合分析

一、基础权数和特殊权数 • 基础权数：单位入选样本概率的倒数由于是自加权设计，各州内基础权数相同各州抽样比不同，基础权数在各州不同

特殊权数： 对特殊情况的权数调整；如USU包含8个住户，仍然只调查4户，每户则赋以特殊权数2；特殊权数对方差估计会带来负面影响；特殊权数被限制在4以内。

二、无回答调整 • 构造调整层：全国共分为254个调整层 • 统计回答户权数和无回答户权数 • 计算调整系数：

第类层回答户权数和 • 第类层无回答户权数和受访户权数=基本权数*特殊权数*无回答调整权数

三、第一阶段比率调整 • 对样本中黑人分布进行的调整 • 针对Non-Self-Representing的PSU而言 • 调整因子计算式：

州第个种族（ =1，2）第一阶段调整因子 • ：州第个种族第个（Nsr）PSU 16岁以上人口总数 • 州第个种族第个（Nsr）PSU 16岁以上人口总数 • ：州第个（Nsr）PSU入样概率 • N ：州中（Nsr）PSU个数（入样和非入样） • n ：州中（Nsr）PSU样本个数

两个因子某些情况下的合并 • 目的：增强因子的稳定性，避免极端值受访者权数=基础权数*特殊权数* 无回答调整权数*一阶调整

四、二阶比率调整 • 多变量综合调整 • 有8个轮换组，调整在轮换组中进行

主要的控制变量： • 各州16以上的人数 • 西班牙裔/性别分组 • 非西班牙裔/年龄分组 • 白人/性别/年龄分组 • 黑人/性别/年龄分组 • 其它种族/性别/年龄分组

分组个数不同，体现了对不同内容关注 细致程度的不同 • 一般而言，经过6次迭代，可达到权数调整目的

每一次迭代的步骤： 1. 计算组内调整因子初始因子 : 第j个调整组中控制总量除以8； : 一阶调整后第j个调整组第k个轮换组对控制变量的估计；合并的标准

2. 用调整因子进行组内的估计 3.用控制总量除以该估计值最终权数=基础权数*特殊权数*无回答调整权数* 一阶调整*二阶调整

五、复合估计 • 实质：把几个估计值加权平均 • 涉及到的几个估计值用霍维茨——汤普森估计量所得CPS当前调查月份的估计上个月份的复合估计两个月份之间变化量的估计

复合估计式为 目标量当前月份的霍维茨——汤普森估计; : 轮换组变化量的估计; : 上月份的复合估计; : 1、5组与2、3、4、6、7、8组之间净差异估计；

CPS研究表明： K和A取常数，K=0.4，A=0.2时，对有关劳动力特征的变量来说，估计量方差可降到最理想程度。

第四节CPS的方差估计 方差估计目的： 1．用于各种统计分析； 2. 对抽样效果和估计的精度进行评估。

一、方差估计再抽样方法 • 采用与总样本相同的抽样原则，抽取随机样本 • 采用相同的估计程序得到随机样本估计值 • 利用这些估计值计算方差

(随机组方法） 以前，40个随机样本； 1980年以后，使用均衡半样本方法，48个样本； 1990年以后，逐次差分再抽样方法。将最终样本单位按相邻顺序排队，如（USU1,USU2）、(USU2,USU3)、(USU3,USU4),以便更好的反映系统抽样的特点。

二、用方差估计评估抽样设计 • CPS总方差包括PSU组内方差和Nsr的PSU组间方差 • 对大部分指标来说，PSU组内方差解释了总方差的90% • 表明CPS对初级单元的界定、分类、分层和抽样是非常成功的

在估计方面： 利用相对方差（变异系数平方）进行评估; 对全国目标量而言，失业率指标：

一、二阶比率调整，二阶调整效果更明显 • 复合估计效果最为明显 • 在有些指标上（如西班牙裔失业人数）使方差下降8% • 设计效应（失业人口）为1.229

CPS(Current Population Survey) 介绍