870 likes | 1.2k Views
统计学原理(第五讲). 罗洪群. 教学目的与要求: 抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。. 本 章 主 要 内 容. 抽样推断的一般问题. 抽样误差. 抽样估计的方法. 抽样组织设计. 第一节 抽样推断的一般问题. 一、抽样推断的概念和特点. 抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断 。.
E N D
统计学原理(第五讲) 罗洪群
教学目的与要求: 抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。
本 章 主 要 内 容 • 抽样推断的一般问题 • 抽样误差 • 抽样估计的方法 • 抽样组织设计
第一节 抽样推断的一般问题 一、抽样推断的概念和特点 抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。 概 念 它是由部分推断整体的一种认识方法。 抽样推断建立在随机取样的基础上。 特 点 抽样推断运用概率估计的方法。 抽样推断的误差可以事先计算并加以控制。
二、抽样推断的内容 参数估计 参数估计是依据所获得的样本观察资料,对所研究现象总体的水平、结构、规模等数量特征进行估计。 假设检验 假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。
三、有关抽样的基本概念 (一)总 体 和 样 本 又称全及总体。指所要认识的 研究对象全体。总体单位总数用“N” 表示。 总体: 又称子样。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。 样本:
∑XF ∑F ∑X N X= X= 2 2 Σ(X-X)F ΣF Σ(X-X) N 2 2 σ σ = = N1 P = N 2 σ = P(1-P) (二)参 数 和 统 计 量 参 数 反映总体数量特征的全及指标。 总体平均数 研究总体中 的数量标志 总体方差 参数 总体成数 研究总体中 的品质标志 成数方差 (只有两种表现)
∑x x x = = n n p = n ∑xf ∑f 统 计 量 根据样本数据计算的综合指标。 样本平均数 研究数 量标志 样本标准差 样本成数 研究品 质标志 成数标准差
n N (三)样本容量和样本个数 一个样本包含的单位数。用 “n”表示。 一般要求 n ≥30 样本容量: 样本个数: 从一个全及总体中可能抽取的样本数目。 (四)重复抽样和不重复抽样 又称回置抽样。 重复抽样: 可能组成的样本数目: 又称不回置抽样。 不重复抽样: 可能组成的样本数目: N(N-1)(N-2)……(N-n+1)
例如:从A、B、C、D四个单位中,抽出两个单位构成例如:从A、B、C、D四个单位中,抽出两个单位构成 一个样本,问可能组成的样本数目是多少? A A AB AC AD 重复抽样 n B A BB BC BD N = 42 =16 (个样本) C A CB CC CD D A DB DC DD N(N-1)(N-2)……. 不重复抽样 4×3 = 12(个样本)
第二节 抽 样 误 差 一、抽样误差的含义 由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。
二、影响抽样误差大小的因素 1、总体各单位标志值的差异程度 2、样本的单位数 3、抽样方法 4、抽样调查的组织形式
三、抽样平均误差 抽样平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。
假设总体包含1、2、3、4、5,五个数字。 则:总体平均数为 1+2+3+4+5 = 3 x = 5 现在,采用重复抽样从中抽出两个,组成一个样本。可能组成的样本数目:25个。 3+5 如: 1+3 1+4 2+4 = 4 =2.5 =3 =2 2 2 2 2
多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映抽样误差一般水平的指标。多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映抽样误差一般水平的指标。
抽 样 平 均 误 差 的 计 算 公 式 抽样平均数 的平均误差 抽样成数 平均误差 (以上两个公式实际上就是第四章讲的标准差。 但反映的是样本指标与总体指标的平均离差程度) 实际上,利用上述两个公式是计算不出抽样平均误差的。 想一想,为什么?
抽样平均数平均误差的计算方法 采用重复抽样: 此公式说明,抽样平均误差与总体标准差成正比, 与样本容量成反比。(当总体标准差未知时,可 用样本标准差代替) (教材P180例题) 通过例题可说明以下几点: ①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 ③可通过调整样本单位数来控制抽样平均误差。
例题:假定抽样单位数增加 2 倍、0.5 倍时,抽样平均误差怎样变化? 解:抽样单位数增加 2 倍,即为原来的 3 倍 则: 即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。 抽样单位数增加 0.5倍,即为原来的 1.5倍 则: 即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
采用不重复抽样: 公式表明:抽样平均误差不仅与总体变异程度、 样本容量有关,而且与总体单位数的多少有关。 随机抽选某校学生100人,调查他们的体 重。得到他们的平均体重为58公斤,标 准差为10公斤。问抽样推断的平均误差 是多少? 例题一: 某厂生产一种新型灯泡共2000只,随机 抽出400只作耐用时间试验,测试结果 平均使用寿命为4800小时,样本标准差 为300小时,求抽样推断的平均误差? 例题二:
已知: n=100 x=58 σ=10 例题一解: 则: 即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。 例题二解: 已知: N=2000 n=400 σ=300 x=4800 则: 计算结果表明:根据部分产品推断全部产品的平均使用寿命 时,采用不重复抽样比重复抽样的平均误差要小。
抽样成数平均误差的计算方法 采用重复抽样: 采用不重复抽样: 某校随机抽选400名学生,发现戴眼镜的学 生有80人。根据样本资料推断全部学生中戴 眼镜的学生所占比重时,抽样误差为多大? 例题三: 一批食品罐头共60000桶,随机抽查300桶 ,发现有6桶不合格,求合格品率的抽样平 均误差? 例题四:
例 题 三 解: 已知: 则:样本成数 即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
例 题 四 解: 已知: 则:样本合格率 计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。
Δ p p -Δ ≤P≤ p+Δ = │p - P│ p p 四、抽 样 极 限 误 差 抽样极限误差指在进行抽样估计时,根据研究 对象的变异程度和分析任务的要求所确定的样 本指标与总体指标之间可允许的最大误差范围。 含义: 它等于样本指标可允许变动的上限 或下限与总体指标之差的绝对值。 计算方法: 抽样平均数极限误差: ≤ ≤ 抽样成数极限误差:
Δ t = μ Δ = t μ 五、抽样误差的概率度 抽样误差的概率度是测量抽样估计可靠 程度的一个参数。用符号“t ”表示。 含 义 公式表示: (t 是极限误差与抽样平均误差的比值) 上式可变形为: (极限误差是 t 倍的抽样平均误差)
第三节 抽样估计的方法 一、总体参数的点估计 总体参数点估计的特点:P188 无偏性 总体参数优良估计的标准 一致性 有效性 二、总体参数的区间估计 总体参数区间估计的特点:P195 估计值 抽样误差范围 区间估计三要素 抽样估计的置信度
什 么 是 抽 样 估 计 的 置 信 度? 抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度(教材P191) 符号表示: P( x - X ≤Δ ) x (教材P192例题)
理论已经证明,在大样本的情况下,抽样平均数的分布接近于正态分布,分布特点是:抽样平均数以总体平均数为中心,两边完全对称分布,即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数愈接近总体平均数,出现的可能性愈大,概率愈大;反之,抽样平均数愈离开总体平均数,出现的可能性愈小,概率愈小,趋于0。(见下图)理论已经证明,在大样本的情况下,抽样平均数的分布接近于正态分布,分布特点是:抽样平均数以总体平均数为中心,两边完全对称分布,即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数愈接近总体平均数,出现的可能性愈大,概率愈大;反之,抽样平均数愈离开总体平均数,出现的可能性愈小,概率愈小,趋于0。(见下图)
正 态 概 率 分 布 图 数理统计已经证明,抽样 误差的概率就是概率度的 函数,二者对应的函数 关系已编成“正态分布 概率表”。 因为扩大或缩小以后 的平均误差,就是极 限误差: Δ=tμ 68.27% 所以,抽样平均误 差的系数就是概 率度t。 (P485) 95.45% x-2μ x-1μ X x+1μ x+2μ 由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计 的精确度愈低;反之,误差范围愈小,则抽样估计的置信度 愈低,但抽样估计的精确度愈高。
三、总体参数区间估计的方法 (一)根据给定的抽样误差范围,求概率保证程度 分析步骤: 1、抽取样本,计算抽样指标。 2、根据给定的极限误差范围估 计总体参数的上限和下限。 3、计算概率度。 4、查表求出概率F(t),并对 总体参数作出区间估计。 (例题:教材P197和P198)
(二)根据给定的概率F(t),推算抽样极限误差的可能范围(二)根据给定的概率F(t),推算抽样极限误差的可能范围 分 析 步 骤: 1、抽取样本,计算样本指标。 2、根据给定的F(t)查表求得概率度 t 。 3、根据概率度和抽样平均误差计算极限误差。 4、计算被估计值的上、下限,对总体参数作出区间估计。 (例题:教材P199)
某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。 例 题 一: (1)以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间?若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?
例题一解题过程: 已知:N=10000 n=100 1、计算抽样平均误差 问题一解: 2、计算抽样极限误差 3、计算总体平均数的置信区间 上限: 下限: 即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.
问题二解: 已知: 则样本单位数: 即:当 至少应抽544.6亩作为样本。
例 题 二: 某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围? 已知: 区间下限: 区间上限:
例 题 三: 为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。 要求计算: 1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间? 2、若要求抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?
例 题 三 的 问 题 一 解: 已知:N=5000 N=400 1、计算样本成数: 2、计算抽样平均误差:
3、计算抽样极限误差: 即:以95%的把握程度估计该地区农户中拥有彩电的农户在 17.87%至25.63%之间。 上限: 4、计算总体P的置信区间: 下限:
例 题 三 的 问 题 二 解: 当 其他条件不变时:
第四节 抽样组织设计 一、简单随机抽样 按随机原则直接从总体N个单位中 抽取 n 个单位作为样本。 1、含义: 2、样本单位数的计算方法: 通过抽样极限误差公式计算必要的样本单位数。 抽样平均数 抽样成数 重复抽样: 不重复抽样:
二、类型抽样 先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。 三、等距抽样 先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。 四、整群抽样 将总体各单位划分成许多群,然后从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织形式。
一.判断题 1、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。( ) ×
2、 在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。( ) √
6、从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。( ) √