550 likes | 896 Views
CPS(Current Population Survey) 介绍. 中国人民大学统计学院 金勇进. 背 景. CPS 调查始于 1940 年 国际上最著名的抽样调查项目之一 由联邦普查局和美国劳工统计局联合组织 核心数据是关于劳动力市场的信息( 3 月份调查) 此外还包括与劳动力市场有关的其他主题: 如受教育状况、工种更换、服役状况、兼职活动等. 调查范围、对象与选择方式. 调查范围覆盖全美国 对象为 16 周岁以上的美国居民 概率抽样,样本量为 60000 户 中选户中一个合格成员代表家中所有成员接受调查
E N D
CPS(Current Population Survey)介绍 中国人民大学统计学院 金勇进
背 景 • CPS调查始于1940年 • 国际上最著名的抽样调查项目之一 • 由联邦普查局和美国劳工统计局联合组织 • 核心数据是关于劳动力市场的信息(3月份调查) • 此外还包括与劳动力市场有关的其他主题: 如受教育状况、工种更换、服役状况、兼职活动等
调查范围、对象与选择方式 • 调查范围覆盖全美国 • 对象为16周岁以上的美国居民 • 概率抽样,样本量为60000户 • 中选户中一个合格成员代表家中所有成员接受调查 • 调查于每月包含19号的那周进行 • 调查问题涉及前一周(包括12号那周)活动 • 样本轮换为4—8—4模式
样本量的变化 年份 PSU数量 样本总量(户数) 备注 1943 6825000 开始采用概率抽样,覆盖125个县级单元 1954 230 25000覆盖453个县级单元,在样本量相同情况下估计精度提高 1956 330 40000覆盖638个县级单元,主要估计量精度提高约20% 1960 333 40000阿拉斯加和夏威夷进入,增加了对比的难度 1963 357 40000给人口增加迅速的地区以更充分覆盖,样本量不变情况下可靠性提高5% 1967 449 60000可靠性提高约20% 1973 461 58000群规模由6户变为4户,样本更加优化 1975 616 69000满足各洲精度估计要求 1981 629 72000 微调,继续提高精度 1996 754 50000财政经费减少,可靠性要求降低 2001 754 60000 国会增加经费,样本量回升
第一节 CPS抽样设计 一、主要特征和参数设定 • CPS样本是随机样本 • 抽样时以州为总体,设计也是以州为单位的设计 • 样本量以变异系数CV及可靠性要求决定 • 参数设定:失业率期望值为6%,变异系数要求为1.8%(全国) • 显著性水平 条件下,全国失业率范围在 之间 • 为实现上述目标,各州的变异系数在8%~9%之间
CPS抽样的主体部分是二阶抽样: 第一阶采用分层PPS,抽出754个初级单元; 第二阶采用整群系统,抽出60000个最终单位(住户); • 有些地区需要采用三阶抽样 • 州内住户入选概率基本相同 • 不同州内住户入选概率会有区别 • 抽样设计兼顾了国家和州两级需要
二、第一阶段抽样 涉及的工作有 初级单元(PSU)的界定 对初级单元PSU的分层 PSU的抽选
(一)PSU的界定 • PSU不跨州界 • PSU或者是一个县,或是相邻的两个或多个县 • 在城市,PSU按城市统计区域界定
对PSU的要求是: 面积在3000平方英里范围内; 人口在7500人以上; 若两者发生冲突,面积具有优先权。 • 目的:保证访员实际操作 • 目前美国的行政县、市有3141个, 共分为2007个PSU;
(二)对PSU分层 • 分层标准有两个:相同的特征和相近的规模 • 有些PSU(如城市),人口密度大,则划入必选PSU ;这样,就把2007个PSU划分为二类: 一类: self—representing,自代表性质的PSU, 必选初级单元,共432个; 另一类:Non—self—representing共1575个, 将1575个划分为360层,每层约4~5个 PSU。
分层原则: 1.PSU的人口规模相近 2. 劳动力及其他与失业相关的经济特征相似 3. 分层的主要指标有:男性失业人数,女性失业 人数,女性为户主的家庭数等. 4.每个非自代表的样本PSU调查45-60户,这是现场 调查员的适宜工作量。
(三)PSU的抽选 432个自然进入样本; 360个层中每层抽一个PSU; 一阶PSU个数=432+360=792 (1996年减少到754个)
三、第二阶抽样 • 抽选最终抽样单位USU • 每个USU是由4户组成的群 • 目的: 调查地点相对集中,节省费用
使用的抽样框主要有三个: 集体户抽样框(集体宿舍、养老院等,约占总人口2%) 住户抽样框 约占总人口98% 区域抽样框(无法反映在住户抽样框中的变化,由建筑部门提供有关新建筑的信息) • 抽样方式采用整群系统抽样 • 抽取概率为1/K,K是PSU内的抽样间隔 各州的K可能不同 • 关于三阶抽样的问题 主要是人口密集的地区,可以先抽街区,再抽群
四、样本轮换 • 4—8—4轮换模式 • 该轮换模式的主要特征 在任何月份,都有1/8的住户接受第一次调查,1/8住 户接受第二次调查,如此下去; 每个月都有新样本组代替从样本中退出的老样本组; 每个月都有一个样本组在8个月的闲置后重新接受调 查,一个样本组进入8个月的闲置期;
轮换设计保证每个样本单元在两个不同年份的4个相同月份中接轮换设计保证每个样本单元在两个不同年份的4个相同月份中接 受调查; 在连续2个月内,有3/4的样本是相同的,在连续2年中,有1/2的 样本是相同的; 抽样设计10年修订一次,为样本轮换,抽取时将10年间准备用 于轮换的单位一并抽出备用。 其他国家劳动力调查样本轮换情况后面介绍。
两次方案的衔接问题 新方案在两个人口普查年度中间(如2005,2015)7月开 始,而新方案的样本抽取在前一年(如2004,2014)4月开 始,新样本是逐步引入CPS实施过程的,以便保证数据的衔 接
第二节 主要国家的人口就业, 劳动力调查情况第二节 主要国家的人口就业, 劳动力调查情况 一. 调查实施 美国(CPS)联邦普查局(Census Bureau) 加拿大 加拿大统计局(Statistics Canada) 英国 英国国家统计办公室社会调查部 澳大利亚澳大利亚统计局 日本 日本统计局
二. 样本性质 美国:各洲独立样本 加拿大:省,及重点地区 英国:苏格兰运河南北抽样设计不同 澳大利亚:全国样本 日本:全国样本
三. 样本量 美国:60000户 加拿大:54000户 英国:57000户 澳大利亚:30500户 日本:40000户
四. 调查频率 美国:每月 加拿大:每月 英国:季度 澳大利亚:月 日本:月
五. 调查方式 美国:第一、五次面访,其余电话调查。 加拿大:面访并直接录入笔记本电脑。 英国:第一次面访,之后的四次采用电话访问。 澳大利亚:第一次调查面访,其余调查则通过电话进行 日本:没有查到
六. 方案设计周期 美国:10年 加拿大:无固定 英国:无固定 澳大利亚:无固定 日本:无固定
七. 关于抽样 美国:两阶段分层抽样为主体 加拿大:两阶段分层抽样 英国:单阶段抽样 澳大利亚:三阶段分层抽样 日本:两阶段分层抽样
八. 最终单元组成 美国:4户为群 加拿大:单个住址 英国:单个住址 澳大利亚:单个住址 日本:单个住址
九. 样本轮换 美国:4-8-4模式 加拿大:6in模式,即接受6次调查后永久退出 英国:5 in模式 澳大利亚:8 in模式 日本:初级单元轮换4-8-4模式 最终单元轮换2-10-2模式
几点启示: 1. 抽样阶段越少越好 2. 最终的抽样单元大部分为单个住址,群规模不宜大 3. 抽取初级单元数量较多 4. 抽取初级单元采用分层 5. 不同地区有不同的抽样方案 6.充分利用电话调查节约成本
第三节CPS的目标量估计 • 核心是确定权数问题 • 估计程序中确定权数的步骤: 1.确定样本的基础权数和特殊权数 2.根据无回答情况对权数进行调整 3.一阶段的比率调整 4.二阶段的比率调整 5.结合历史数据进行复合分析
一、基础权数和特殊权数 • 基础权数: 单位入选样本概率的倒数 由于是自加权设计,各州内基础权数相同 各州抽样比不同,基础权数在各州不同
特殊权数: 对特殊情况的权数调整; 如USU包含8个住户,仍然只调查4户,每户则赋以 特殊权数2; 特殊权数对方差估计会带来负面影响; 特殊权数被限制在4以内。
二、无回答调整 • 构造调整层:全国共分为254个调整层 • 统计回答户权数和无回答户权数 • 计算调整系数:
第 类 层回答户权数和 • 第 类 层无回答户权数和 受访户权数=基本权数*特殊权数*无回答调整权数
三、第一阶段比率调整 • 对样本中黑人分布进行的调整 • 针对Non-Self-Representing的PSU而言 • 调整因子计算式:
州第 个种族( =1,2)第一阶段调整因子 • : 州第 个种族第 个(Nsr)PSU 16岁以上人 口总数 • 州第 个种族第 个(Nsr)PSU 16岁以上人 口总数 • : 州第 个(Nsr)PSU入样概率 • N : 州中(Nsr)PSU个数(入样和非入样) • n : 州中(Nsr)PSU样本个数
两个因子某些情况下的合并 • 目的: 增强因子的稳定性,避免极端值 受访者权数=基础权数*特殊权数* 无回答调整权数*一阶调整
四、二阶比率调整 • 多变量综合调整 • 有8个轮换组,调整在轮换组中进行
主要的控制变量: • 各州16以上的人数 • 西班牙裔/性别分组 • 非西班牙裔/年龄分组 • 白人/性别/年龄分组 • 黑人/性别/年龄分组 • 其它种族/性别/年龄分组
分组个数不同,体现了对不同内容关注 细致程度的不同 • 一般而言,经过6次迭代,可达到权数 调整目的
每一次迭代的步骤: 1. 计算组内调整因子 初始因子 : 第j个调整组中控制总量除以8; : 一阶调整后第j个调整组第k个轮换组对控制变量 的估计; 合并的标准
2. 用调整因子进行组内的估计 3.用控制总量除以该估计值 最终权数=基础权数*特殊权数*无回答调整权数* 一阶调整*二阶调整
五、复合估计 • 实质:把几个估计值加权平均 • 涉及到的几个估计值 用霍维茨——汤普森估计量所得CPS当前调 查月份的估计 上个月份的复合估计 两个月份之间变化量的估计
复合估计式为 目标量当前月份的霍维茨——汤普森估计; : 轮换组变化量的估计; : 上月份的复合估计; : 1、5组与2、3、4、6、7、8组之间净差异估计;
CPS研究表明: K和A取常数,K=0.4,A=0.2时,对有关劳动力特征的变量来说,估计量方差可降到最理想程度。
第四节CPS的方差估计 方差估计目的: 1.用于各种统计分析; 2. 对抽样效果和估计的精度进行评估。
一、方差估计再抽样方法 • 采用与总样本相同的抽样原则,抽取随机样本 • 采用相同的估计程序得到随机样本估计值 • 利用这些估计值计算方差
(随机组方法) 以前,40个随机样本; 1980年以后,使用均衡半样本方法,48个样本; 1990年以后,逐次差分再抽样方法。 将最终样本单位按相邻顺序排队,如 (USU1,USU2)、(USU2,USU3)、(USU3,USU4),以便 更好的反映系统抽样的特点。
二、用方差估计评估抽样设计 • CPS总方差包括PSU组内方差和Nsr的PSU组间方差 • 对大部分指标来说,PSU组内方差解释了总方差的90% • 表明CPS对初级单元的界定、分类、分层和抽样是非常成功的
在估计方面: 利用相对方差(变异系数平方)进行评估; 对全国目标量而言,失业率指标:
一、二阶比率调整,二阶调整效果更明显 • 复合估计效果最为明显 • 在有些指标上(如西班牙裔失业人数)使方差下降8% • 设计效应(失业人口)为1.229