420 likes | 686 Views
第三期中国妇女社会地位调查 抽样设计方案. 第三期中国妇女社会地位调查领导小组办公室 中国人民大学统计学院 2010 年 7 月 15 日. 中国人民大学统计学院 中国人民大学统计学科始建于 1950 年,目前拥有统计学全国重点学科,教育部人文社会科学重点研究基地 “ 应用统计科学研究中心 ” 。统计学和风险管理与精算学两个博士点,统计学、概率论与数理统计、风险管理与精算学、流行病与卫生统计学四个硕士点,应用经济学下设统计学博士后流动站. 金勇进教授 本次抽样设计团队 近年来承担全国性重大抽样设计项目
E N D
第三期中国妇女社会地位调查抽样设计方案 第三期中国妇女社会地位调查领导小组办公室中国人民大学统计学院 2010年7月15日
中国人民大学统计学院 中国人民大学统计学科始建于1950年,目前拥有统计学全国重点学科,教育部人文社会科学重点研究基地“应用统计科学研究中心”。统计学和风险管理与精算学两个博士点,统计学、概率论与数理统计、风险管理与精算学、流行病与卫生统计学四个硕士点,应用经济学下设统计学博士后流动站
金勇进教授 • 本次抽样设计团队 • 近年来承担全国性重大抽样设计项目 (1)中国公众科学素养调查设计与数据分析,中国科协,2001-2010年共计五次。 (2)中国儿童青少年心理发育特征调查抽样设计及数据分析,北京师范大学,2008年 (3)2009学生国际能力测评中国试测研究抽样设计与数据分析,教育部考试中心,2009年
抽样设计的原则(一) • 全国性大规模抽样调查,抽样方案设计必须是严格的概率抽样。 • 抽取样本用以满足全国目标量估计的需求;对需要进行单独分析的省(自治区、直辖市),在全国样本的基础上进行样本追加用以满足省级目标量的估计。
抽样设计的原则(二) • 抽样设计既有利于提高抽样效率,也为开展妇女社会地位与层间经济社会综合发展水平差异的相关性研究奠定基础;同时,还保证本期调查结果能够满足多领域分析的需求,如从城乡差异、不同地区经济发展水平差异等多角度进行对比分析。
抽样设计的原则(三) • 本期调查仍然采用分层多阶段不等概率抽样,在各层内,采用与人口规模成比例的不等概率抽样。对于北京、天津、上海三个直辖市,选择街道、乡镇作为初级抽样单元;对于其他省(自治区、直辖市),选择区、县级市、县作为初级抽样单元。
初级单元抽样框的划分 • 根据国家统计局现行的统计上有关我国区域的划分标准,全国31个省、直辖市、自治区(港、澳、台地区除外)按照东中西的地域概念划分为三类地区(东、中、西部地区)。 • 将北京、天津、上海单独作为直辖市域处理 • 重庆位于我国西部地区,直辖市区划设立较晚,作为省对待
初级单元抽样框的分层 • 直辖市域:北京、天津、上海; • 东部域:辽宁、河北、山东、江苏、浙江、福建、广东、海南; • 中部域:黑龙江、吉林、山西、河南、安徽、湖北、湖南、江西; • 西部域:内蒙古、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆。
初级单元抽样框的划分 • 北京、天津、上海街道、乡镇总计773个初级抽样单元 • 其他28个省(自治区、直辖市)共有县级行政单位(区、县级市、县)2803个初级抽样单元 • 甘肃省的酒泉市、广东省的中山市和东莞市、海南省的三亚市都为不设县级行政单位的地级市,这4个地级市与以上2803个县级行政单位等同视为一级抽样单元 • 据此,全国共有初级抽样单元3580个
初级单元抽样框 • 直辖市域初级单元组成抽样框一,含773个初级抽样单元 • 东部域初级单元组成抽样框二,含836个初级抽样单元 • 中部域初级单元组成抽样框三,含894个初级抽样单元; • 西部域初级单元组成抽样框四,含1077个初级抽样单元
抽样框的分层依据 • 同一抽样框内初级抽样单元之间由于所属行政地区的经济发展水平、城乡差距等原因仍然具有较大的差异。为了提高估计效率,需要在各域内进行再分层。 • 一方面,人口的聚集程度与社会发展水平紧密联系 • 另一方面,城市化水平(非农业人口占总人口比重)这一指标能够反映我国各地区的经济发展差异
直辖市域抽样框一的分层 • 对于以街道、乡镇为初级抽样单元的抽样框一。 • 官方公开资料中并没有详细的街道、乡镇一级行政区划的两项指标。 • 直辖市域的初级单元分层首先采用街道和乡镇的行政区划,直接分为街道层和乡镇层两个大类;在每一大类内再按所属直辖市依次分为北京、天津、上海三个小层。抽样框一共被分为6个小层
东中西部域抽样框的分层 • 对于以区县(区、县级市和县)为初级抽样单元的其他三个抽样框,先将各抽样框内的初级抽样单元根据各自人口密度划分。人口密度较高的为一类层,较低的为二类层。 • 在此基础上,根据上述两个大类内初级单元的城市化水平,将区县进一步细分为若干小层
各级抽样单元的确定 • 第一阶段抽样单元:区、县级市、县(抽样框一为街道、乡镇)。 • 第二阶段抽样单元:居委会、村委会; • 第三阶段抽样单元:家庭户。 • 家庭户中15岁及以上的家庭成员,随机抽出一人填答个人主问卷;如果被抽中的是60岁及以上的老年人,还需要填答老年人附卷;针对入选家庭户中年龄在9~14岁的儿童,随机抽出一人填答儿童附卷。
各级抽样单元的抽取方法 • 第一阶段抽样中,采用与初级抽样单元人口规模成比例的系统PPS抽样,在四个抽样框抽取初级抽样单元; • 第二阶段抽样采用与入选区、县级市、县(北京、天津、上海为街道、乡镇)内居委会或村委会人口规模成比例的系统PPS抽样,在入选初级单元内抽取居委会或村委会; • 第三阶段抽样在入选的居委会或村委会内采用简单系统抽样抽取相同数量的家庭户。
样本量及其分配 • 本期调查全国基本方案个人主问卷调查人数是30000人,进行样本量分配时以个人主问卷数作为各层样本量的分配依据,再根据制定的第二、三阶段抽取的样本单元数标准,折算出需抽取的初级单元样本量。
抽样框一的样本量 • 首先单独确定直辖市域抽样框的样本量,其他三个域再按与人口规模成比例分配剩余样本量。 • 我们以估计简单随机抽样比例P时的样本量为基础,在95%的置信度下按抽样绝对误差不超过4%的要求进行计,设计效应取为2.5,所需样本量为1500人。如果进行分性别或分城乡对比分析,直辖市层抽样框主问卷的最终样本量确定为1500*2=3000人
抽样框一的样本量 • 对于北京、天津、上海三个直辖市的街道、乡镇初级抽样单元总计773个。为了使抽取的样本初级单元相对分散,提高该层的抽样效率,按照每个样本初级单元抽2个居委会(村委会)、每个样本居委会(村委会)抽15个家庭户的原则,计算出抽样框一需抽取100个初级抽样单元(街道、乡镇)。
其他三个抽样框样本量 • 除去直辖市域的样本量3000人,剩余的27000人则作为其他三个域抽样框的样本量。根据各域的人口规模按比例进行分配。 • 在每个中选样本初级抽样单元抽取5个居委会或村委会,每个样本居委会或村委会抽取15户,每户抽1人的原则;折算出东部域抽样框二需抽取9450人、126个初级单元,中部域抽样框三需抽取9450人、126个初级单元,西部域抽样框四需抽取8100人、108个初级样本单元。
抽样框一的样本抽取 直辖市抽样框一的样本初级单元分配
抽样框一的样本抽取 • 在各小层层内分别采用与各个街道(乡镇)人口规模成比例的系统PPS抽样抽取街道(乡镇) • 在入选的街道内采用与居委会人口规模成比例的系统PPS抽样抽取2个的居委会;在入选的乡镇内采用与村委会人口成比例的系统PPS抽样抽取2个村委会 • 在每个入选居委会或村委会内采用随机起点的等概率系统抽样抽取15户
抽样框二的样本抽取 抽样框二的样本初级单元分配
抽样框二的样本抽取 • 在每一小层内,采用与各区、县人口规模成比例的系统PPS抽样抽取样本单元 • 在每个入选的初级抽样单元内,分别采用与各居委会、村委会人口规模成比例的系统PPS抽样抽5个居委会或村委会 • 在每个入选居委会或村委会内采用随机起点的等概率系统抽样抽取15户
抽样框二的样本抽取 东部域样本居委会和村委会抽取数量的分配标准
抽样框三的样本抽取 抽样框三的样本初级单元分配
抽样框三的样本抽取 • 在每一小层内,采用与各区、县人口规模成比例的系统PPS抽样抽取样本单元 • 在每个入选的初级抽样单元内,分别采用与各居委会、村委会人口规模成比例的系统PPS抽样抽5个居委会或村委会 • 在每个入选居委会或村委会内采用随机起点的等概率系统抽样抽取15户
抽样框三的样本抽取 中部域样本居委会和村委会抽取数量的分配标准
抽样框四的样本抽取 抽样框四的样本初级单元分配
抽样框四的样本抽取 • 在每一小层内,采用与各区、县人口规模成比例的系统PPS抽样抽取样本单元 • 在每个入选的初级抽样单元内,分别采用与各居委会、村委会人口规模成比例的系统PPS抽样抽5个居委会或村委会 • 在每个入选居委会或村委会内采用随机起点的等概率系统抽样抽取15户
抽样框四的样本抽取 西部域样本居委会和村委会抽取数量的分配标准
最终样本构成 • 全国共抽取460个初级抽样单元,2000个二级抽样单元,30000个家庭户。 • 直辖市域共抽取75个街道和25个乡镇,150个居委会和50个村委会,共计3000户。 • 东部域最终抽取126个初级单元,其中人口密度一类层62个,二类层64个;共计349个居委会和281个村委会,9450户。
最终样本构成 • 中部域最终抽取126个初级单元,其中人口密度一类层65个,二类层61个;共计216个居委会和314个村委会,9450户。 • 西部域最终抽取108个初级单元,其中人口密度一类层55个,二类层51个,共计234个居委会和296个村委会;西藏抽取初级单元2个,6个居委会和4个村委会。西部域共计抽取8100户 • 全国基本方案样本中居委会1055个,村委会945个,城乡比约为1:1
省级样本追加方案原则 • 为便于后期数据的分析处理,省级样本的追加设计独立于全国样本抽样设计,独立实施 • 省级追加方案和全国方案的抽样设计定义相同的各阶段抽样单元,采用与各阶段抽样单元相对应的抽样方法 • 追加层级采用一阶追加,即只在第一阶段抽样中追加初级单元的个数,初级单元以下的抽样与全国方案相同 • 各省样本量视各省人口规模、估计精度要求和组织方的经费预算而定,但各省的样本量应不低于2000人
省级样本追加方案原则 • 省级追加方案需要在全国方案的基础上,根据各省(区、市)的人口结构特点,制定初级抽样单元的分层标准和二级抽样单元中样本居委会和村委会的分配标准,使得省级追加抽取样本的城乡比接近1:1 • 由于采用独立样本追加,该省(区、市)全国样本中的某初级抽样单元在追加抽样时被重复抽中,该初级抽样单元中需要抽取的二级抽样单元居委会和村委会的数量分配采用全国方案标准
抽样框一的追加抽样 • 根据直辖市需要的总样本量和该市非农业人口和农业人口比例,确定各层需要追加的初级抽样单元数(街道或乡镇) • 在每个追加的街道或乡镇中抽取4个二级单元(在中选的街道中抽居委会,在中选的乡镇中抽村委会),在每个样本居委会或村委会内抽取15户家庭户。
其他三个抽样框的追加抽样 • 以区县作为初级抽样单元,根据各省人口规模和分析需要确定需要追加的初级抽样单元数(各省情况不同)。将本省所有的初级抽样单元根据根据城市化水平分布情况各分为5(或6)个小层,在小层内抽取追加初级抽样单元 • 在每个追加的初级抽样单元中抽取5个居委会和村委会,村委会和居委会的分配标准结合各省实际情况制定。在每个样本居委会或村委会内抽取15户家庭户
为调查实施及后期数据分析提供的材料 • 抽样方案——全国和各省级 • 全国抽样设计初级抽样单元名录、对应编码、二级抽样单元抽选结果以及样本量 • 全国样本抽样设计分析权数 • 各省级单位追加后省级初级抽样单元名录、对应编码及样本属性(省内独有、省内和全国重复)、二级抽样单元的抽选结果以及样本量。 • 各省级抽样设计分析权数 • 主要目标量估计精度分析——依据抽样设计和调查结果计算