统计学原理（第五讲）

统计学原理（第五讲） 罗洪群

教学目的与要求： 抽样估计是抽样调查的继续，它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习，要理解和掌握抽样估计的概念、特点，抽样误差的含义、计算方法，抽样估计的置信度，推断总体参数的方法，能结合实际资料进行抽样估计。

本章主要内容 • 抽样推断的一般问题 • 抽样误差 • 抽样估计的方法 • 抽样组织设计

第一节抽样推断的一般问题 一、抽样推断的概念和特点抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察，并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。概念它是由部分推断整体的一种认识方法。抽样推断建立在随机取样的基础上。特点抽样推断运用概率估计的方法。抽样推断的误差可以事先计算并加以控制。

二、抽样推断的内容 参数估计参数估计是依据所获得的样本观察资料，对所研究现象总体的水平、结构、规模等数量特征进行估计。假设检验假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。

三、有关抽样的基本概念 （一）总体和样本又称全及总体。指所要认识的研究对象全体。总体单位总数用“N” 表示。总体：又称子样。是从全及总体中随机抽取出来，作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。样本：

∑XF ∑F ∑X N X= X= 2 2 Σ（X-X）F ΣF Σ（X-X） N 2 2 σ σ = = N1 P = N 2 σ = P(1-P) （二）参数和统计量参数反映总体数量特征的全及指标。总体平均数研究总体中的数量标志总体方差参数总体成数研究总体中的品质标志成数方差（只有两种表现）

∑x x x = = n n p = n ∑xf ∑f 统计量根据样本数据计算的综合指标。样本平均数研究数量标志样本标准差样本成数研究品质标志成数标准差

n N （三）样本容量和样本个数一个样本包含的单位数。用 “n”表示。一般要求 n ≥30 样本容量：样本个数：从一个全及总体中可能抽取的样本数目。（四）重复抽样和不重复抽样又称回置抽样。重复抽样：可能组成的样本数目：又称不回置抽样。不重复抽样：可能组成的样本数目： N（N-1）（N-2）……（N-n+1）

例如：从A、B、C、D四个单位中，抽出两个单位构成例如：从A、B、C、D四个单位中，抽出两个单位构成一个样本，问可能组成的样本数目是多少？ A A AB AC AD 重复抽样 n B A BB BC BD N = 42 =16 (个样本) C A CB CC CD D A DB DC DD N（N-1）（N-2）……. 不重复抽样 4×3 = 12(个样本)

第二节抽样误差 一、抽样误差的含义由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构，而引起抽样指标和全及指标之间的绝对离差。

二、影响抽样误差大小的因素 1、总体各单位标志值的差异程度 2、样本的单位数 3、抽样方法 4、抽样调查的组织形式

三、抽样平均误差 抽样平均误差是抽样平均数或抽样成数的标准差，反映了抽样指标与总体指标的平均误差程度。

假设总体包含1、2、3、4、5，五个数字。 则：总体平均数为 1+2+3+4+5 = 3 x = 5 现在，采用重复抽样从中抽出两个，组成一个样本。可能组成的样本数目：25个。 3+5 如： 1+3 1+4 2+4 = 4 =2.5 =3 =2 2 2 2 2

多数样本指标与总体指标都有误差,误差有大、有小，有正、有负，抽样平均误差就是将所有的误差综合起来，再求其平均数，所以抽样平均误差是反映抽样误差一般水平的指标。多数样本指标与总体指标都有误差,误差有大、有小，有正、有负，抽样平均误差就是将所有的误差综合起来，再求其平均数，所以抽样平均误差是反映抽样误差一般水平的指标。

抽样平均误差的计算公式 抽样平均数的平均误差抽样成数平均误差（以上两个公式实际上就是第四章讲的标准差。但反映的是样本指标与总体指标的平均离差程度）实际上，利用上述两个公式是计算不出抽样平均误差的。想一想，为什么？

抽样平均数平均误差的计算方法 采用重复抽样：此公式说明，抽样平均误差与总体标准差成正比，与样本容量成反比。（当总体标准差未知时，可用样本标准差代替）（教材P180例题）通过例题可说明以下几点： ①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 ③可通过调整样本单位数来控制抽样平均误差。

例题：假定抽样单位数增加 2 倍、0.5 倍时，抽样平均误差怎样变化？解：抽样单位数增加 2 倍，即为原来的 3 倍则：即：当样本单位数增加2倍时，抽样平均误差为原来的0.577倍。抽样单位数增加 0.5倍，即为原来的 1.5倍则：即：当样本单位数增加0.5倍时，抽样平均误差为原来的0.8165倍。

采用不重复抽样： 公式表明：抽样平均误差不仅与总体变异程度、样本容量有关，而且与总体单位数的多少有关。随机抽选某校学生100人，调查他们的体重。得到他们的平均体重为58公斤，标准差为10公斤。问抽样推断的平均误差是多少？例题一：某厂生产一种新型灯泡共2000只，随机抽出400只作耐用时间试验，测试结果平均使用寿命为4800小时，样本标准差为300小时，求抽样推断的平均误差？例题二：

已知： n=100 x=58 σ=10 例题一解: 则：即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。例题二解: 已知： N=2000 n=400 σ=300 x=4800 则：计算结果表明：根据部分产品推断全部产品的平均使用寿命时，采用不重复抽样比重复抽样的平均误差要小。

抽样成数平均误差的计算方法 采用重复抽样：采用不重复抽样：某校随机抽选400名学生，发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时，抽样误差为多大？例题三：一批食品罐头共60000桶，随机抽查300桶，发现有6桶不合格，求合格品率的抽样平均误差？例题四：

例题三解： 已知：则：样本成数即：根据样本资料推断全部学生中戴眼镜的学生所占的比重时，推断的平均误差为2%。

例题四解： 已知：则：样本合格率计算结果表明：不重复抽样的平均误差小于重复抽样，但是“N”的数值越大，则两种方法计算的抽样平均误差就越接近。

Δ p p －Δ ≤P≤ p＋Δ = │p - P│ p p 四、抽样极限误差抽样极限误差指在进行抽样估计时，根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。含义：它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。计算方法：抽样平均数极限误差： ≤ ≤ 抽样成数极限误差：

Δ t = μ Δ = t μ 五、抽样误差的概率度抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“t ”表示。含义公式表示：（t 是极限误差与抽样平均误差的比值）上式可变形为：（极限误差是 t 倍的抽样平均误差）

第三节抽样估计的方法 一、总体参数的点估计总体参数点估计的特点：P188 无偏性总体参数优良估计的标准一致性有效性二、总体参数的区间估计总体参数区间估计的特点：P195 估计值抽样误差范围区间估计三要素抽样估计的置信度

什么是抽样估计的置信度？ 抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度（教材P191）符号表示： P（ x - X ≤Δ ） x （教材P192例题）

理论已经证明，在大样本的情况下，抽样平均数的分布接近于正态分布，分布特点是：抽样平均数以总体平均数为中心，两边完全对称分布，即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数愈接近总体平均数，出现的可能性愈大，概率愈大；反之，抽样平均数愈离开总体平均数，出现的可能性愈小，概率愈小，趋于0。（见下图）理论已经证明，在大样本的情况下，抽样平均数的分布接近于正态分布，分布特点是：抽样平均数以总体平均数为中心，两边完全对称分布，即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数愈接近总体平均数，出现的可能性愈大，概率愈大；反之，抽样平均数愈离开总体平均数，出现的可能性愈小，概率愈小，趋于0。（见下图）

正态概率分布图 数理统计已经证明，抽样误差的概率就是概率度的函数，二者对应的函数关系已编成“正态分布概率表”。因为扩大或缩小以后的平均误差，就是极限误差： Δ=tμ 68.27% 所以，抽样平均误差的系数就是概率度t。（P485） 95.45% x-2μ x-1μ X x+1μ x+2μ 由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低；反之，误差范围愈小，则抽样估计的置信度愈低，但抽样估计的精确度愈高。

三、总体参数区间估计的方法 （一）根据给定的抽样误差范围，求概率保证程度分析步骤： 1、抽取样本，计算抽样指标。 2、根据给定的极限误差范围估计总体参数的上限和下限。 3、计算概率度。 4、查表求出概率F（t），并对总体参数作出区间估计。（例题：教材P197和P198）

（二）根据给定的概率F（t），推算抽样极限误差的可能范围（二）根据给定的概率F（t），推算抽样极限误差的可能范围分析步骤： 1、抽取样本，计算样本指标。 2、根据给定的F（t）查表求得概率度 t 。 3、根据概率度和抽样平均误差计算极限误差。 4、计算被估计值的上、下限，对总体参数作出区间估计。（例题：教材P199）

某农场进行小麦产量抽样调查，小麦播种总面积为1万亩，采用不重复简单随机抽样，从中抽选了100亩作为样本进行实割实测，测得样本平均亩产400斤，方差144斤。某农场进行小麦产量抽样调查，小麦播种总面积为1万亩，采用不重复简单随机抽样，从中抽选了100亩作为样本进行实割实测，测得样本平均亩产400斤，方差144斤。例题一：（1）以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间？若概率保证程度不变，要求抽样允许误差不超过1斤，问至少应抽多少亩作为样本？

例题一解题过程： 已知：N=10000 n=100 1、计算抽样平均误差问题一解： 2、计算抽样极限误差 3、计算总体平均数的置信区间上限：下限：即：以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.

问题二解： 已知：则样本单位数：即：当至少应抽544.6亩作为样本。

例题二： 某纱厂某时期内生产了10万个单位的纱，按纯随机抽样方式抽取2000个单位检验，检验结果合格率为95%，废品率为5%，试以95%的把握程度，估计全部纱合格品率的区间范围及合格品数量的区间范围？已知：区间下限：区间上限：

例题三： 为调查农民生活状况，在某地区5000户农民中，按不重复简单随机抽样法，抽取400户进行调查，得知这400户中拥有彩色电视机的农户为87户。要求计算： 1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间？ 2、若要求抽样允许误差不超过0.02，其它条件不变，问应抽多少户作为样本？

例题三的问题一解： 已知：N=5000 N=400 1、计算样本成数： 2、计算抽样平均误差：

3、计算抽样极限误差： 即：以95%的把握程度估计该地区农户中拥有彩电的农户在 17.87%至25.63%之间。上限： 4、计算总体P的置信区间：下限：

例题三的问题二解： 当其他条件不变时：

第四节抽样组织设计 一、简单随机抽样按随机原则直接从总体N个单位中抽取 n 个单位作为样本。 1、含义： 2、样本单位数的计算方法：通过抽样极限误差公式计算必要的样本单位数。抽样平均数抽样成数重复抽样：不重复抽样：

二、类型抽样 先对总体各单位按主要标志加以分组，然后再从各组中按随机的原则抽选一定单位构成样本。三、等距抽样先按某一标志对总体各单位进行排队，然后依一定顺序和间隔来抽取样本单位的一种组织形式。四、整群抽样将总体各单位划分成许多群，然后从其中随机抽取部分群，对中选群的所有单位进行全面调查的抽样组织形式。

本章作业

一．判断题 1、从全部总体单位中按照随机原则抽取部分单位组成样本，只可能组成一个样本。（） ×

2、在抽样推断中，全及指标值是确定的、唯一的，而样本指标值是一个随机变量。（） √

3、抽样成数的特点是：样本成数越大，则抽样平均误差越大。（ ） ×

4、抽样平均误差总是小于抽样极限误差。（ ） ×

5、在其它条件不变的情况下，提高抽样估计的可靠程度，则降低了抽样估计的精确程度。（ ） √

6、从全部总体单位中抽取部分单位构成样本，在样本变量相同的情况下，重复抽样构成的样本个数大于不重复抽样构成的样本个数。（ ） √

7、抽样平均误差反映抽样误差的一般水平，每次抽样的误差可能大于抽样平均误差，也可能小于抽样平均误差。（ ） √

8、在抽样推断中，抽样误差的概率度越大，则抽样极限误差就越大于抽样平均误差。（ ） √

统计学原理（第五讲）

统计学原理（第五讲）

Presentation Transcript