第五章参数估计和假设检验

第五章参数估计和假设检验 抽样分布推断估计总体参数统计量参数估计总体样本随机原则假设检验检验推断统计：利用样本统计量对总体某些性质或数量特征进行推断。

抽样分布 简单随机抽样和简单随机样本的性质不放回样本独立性和同一性无限总体无限总体放回样本当n/N≤5%时，有限总体不放回抽样等同于放回抽样放回样本有限总体不放回同一性样本

统计量与抽样分布 样本均值如： • 统计量：即样本指标。样本成数样本方差 • 抽样分布：某一统计量所有可能的样本的取值形成的分布。 0≤P（Xi）1 均值E（X）性质数字特征 ∑P（Xi）=1 方差E[x-E(x)]2 方差的平方根即抽样分布的标准差就是推断的抽样误差。

样本均值的抽样分布（简称均值的分布） 总体样本抽样 X,(N) x,(n) 均值均值μ=∑Xi/N 样本均值是样本的函数，故样本均值是一个统计量，统计量是一个随机变量，样本均值的概率分布称为样本均值的抽样分布。

均值分布的数学期望和方差 抽样方法均值方差标准差（1）从无限总体抽样和有限总体放回抽样抽样误差（2）从有限总体不放回抽样抽样误差

从正态总体中抽样得到的均值的分布也服从正态分布。从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢？中心极限定理：无论总体为何种分布，只要样本n足够大（n≥30），均值（）标准化为（z）变量，必定服从标准正态分布，均值（）则服从正态分布，即：关于均值的抽样分布有如下的一些结论: 1.对于多数总体分布来说，不论其形态如何，如果样本观察值超过30个，那么均值的抽样分布将近似于正态分布。 2.如果总体分布是明显对称的，那么只要样本观察值超过15个，均值的抽样分布也近似于正态分布。 3.如果总体是正态分布的，则不管样本大小如何，均值的抽样分布一定是正态分布的。

两个样本均值之差的抽样分布 （1）如：总体样本抽样 X1,(N1) x1,(n1) 总体样本抽样 x2,(n2) X2,(N2) 估计（2〕如果两个总体都是非正态总体，只要n1、n2足够大，根据中心极限定理，可知：

样本成数（即比例）的抽样分布（简称成数的分布）样本成数（即比例）的抽样分布（简称成数的分布）总体样本抽样 X,(N) x,(n) 成数成数P=Ni/N 所有可能的样本的成数（）所形成的分布，称为样本成数的抽样分布。

成数分布的数学期望和方差 抽样方法均值方差标准差（1）从无限总体抽样和有限总体放回抽样抽样误差（2）从有限总体不放回抽样抽样误差根据中心极限定理，只要样本足够大，的分布就近似正态分布。（np和nq大于5时）

两个样本成数之差的抽样分布 总体样本抽样 X1,(N1) x1,(n1) 总体样本抽样 x2,(n2) X2,(N2) 估计 P1-P2=？当n1、n2都足够大时，样本成数都近似服从正态分布，两个样本成数之差（）也近似服从正态分布。

一个样本方差的抽样分布 若:从一个正态总体中抽样所得到的样本方差的分布总体样本抽样则 n,S2 当则

两个样本方差之比的抽样分布 从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。总体样本抽样则 n1,S12 总体样本抽样 n2,S22

参数估计 点估计以样本指标直接估计总体参数。评价准则无偏性有效性一致性充分性对于无限总体，如果对任意满足条件一个估计量如能完全地包含未知参数信息，即为充分量估计量当为的无偏估计时，方差越小，无偏估计越有效。的数学期望等于总体参数，即该估计量称为无偏估计。则称是的一致估计。

点估计 常用的求点估计量的方法当样本容量增大时,用样本的数字特征去估计总体的数字特征。 1.数字特征法: 例如，我们可以用样本平均数(或成数)和样本方差来估计总体的均值(或比率)和方差。 2.顺序统计量法 : 如果把取得的样本观测值按大小排列起来，那么与排列位置有关的统计量就称为顺序统计量。常用的顺序统计量有样本中位数和极差。

当总体服从正态分布时, 用样本中位数来估计总体的数学期望: 3.极大似然估计法: 极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法。其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量θ，其理论依据就是概率最大的事件最可能出现。

区间估计 估计未知参数所在的可能的区间。评价准则一般形式置信度精确度随机区间随机区间或包含的概率的平均长度总体参数估计值误差范围（即可靠程度）越大越好。 △：一定倍数的抽样误差（误差范围）越小越好例如：抽样误差一定时，越大，概率（可靠性）大；随之增大，精确度就差。

参数的区间估计 简单随机抽样待估计参数已知条件置信区间正态总体，σ2已知正态总体，σ2未知总体均值（μ）非正态总体，n≥30 σ未知时，用S 有限总体，n≥30 （不放回抽样） σ未知时，用S 两个正态总体已知两个总体均值之差 μ1-μ2 两个正态总体未知但相等两个非正态总体 ,n1，n2≥30

简单随机抽样 待估计参数已知条件置信区间总体成数（p）无限总体， np和nq都大于5 有限总体， np和nq都大于5 无限总体， n1p1＞5, n1q1 ＞5 n2p2＞5, n2q2＞5 两个总体成数之差（P1 -P2）有限总体， n1p1＞5, n1q1 ＞5 n2p2＞5, n2q2＞5

简单随机抽样 待估计参数已知条件置信区间总体方差正态总体两个总体方差之比两个正态总体

样本数的确定 例：误差范围待估计参数已知条件样本数的确定正态总体，σ2已知总体均值（μ）简单随机抽样有限总体，不放回抽样， σ2已知服从正态分布总体成数（P）有限总体，不放回抽样

假设检验 基本思想检验规则检验步骤常见的假设检验方差分析

基本思想 如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。 • 小概率原理：总体（某种假设）样本（观察结果）抽样检验（拒绝）（接受）小概率事件未发生小概率事件发生

假设的形式： H0——原假设， H1——备择假设双侧检验：H0：μ=μ0， H1：μ≠μ0 单侧检验： H0：μ = μ0， H1：μ＜μ0 H0：μ = μ0， H1：μ＞μ0 假设检验就是根据样本观察结果对原假设（H0）进行检验，接受H0，就否定H1；拒绝H0，就接受H1。

检验规则 • 确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著，超过了临界点，拒绝H0；反之，差异不显著，接受H0 差异判断临界点怎样确定c? c 拒绝H0 c 接受H0 I类错误——弃真错误，发生的概率为α • 两类错误接受或拒绝H0，都可能犯错误 II类错误——取伪错误，发生的概率为β 检验决策 H0为真 H0非真拒绝H0犯I类错误（α）正确接受H0 正确犯II类错误（β）

α大β就小，α小β就大 基本原则：力求在控制α前提下减少β α——显著性水平，取值：0.1, 0.05, 0.01, 等。如果犯I类错误损失更大，为减少损失，α值取小；如果犯II类错误损失更，α值取大。确定α，就确定了临界点c。 ①设有总体：X~N（μ，σ2），σ2已知。 ②随机抽样：样本均值 ③ 标准化： ④确定α值， ⑤查概率表，知临界值接受区拒绝区拒绝区 ⑥计算Z值，作出判断 0

II类错误的概率β的计算 当检验判断为接受原假设H0时，就有可能犯取伪的错误即II类错误。确定犯第Ⅱ类错误的概率β比较困难，具体计算可根据书上的例子。统计上把称为统计检验的势，它是原假设实际上是错误的应该被拒绝的概率。

检验步骤 根据具体问题的要求，建立总体假设H0，H1 1 选择统计量确定H0为真时的抽样分布 2 给定显著性水平α，当原假设H0为真时，求出临界值。 3 计算检验统计量的数值与临界值比较 4

几种常见的假设检验 总体均值的检验条件检验条件量 H0、H1 拒绝域 (1) H0：μ=μ0 H1：μ≠μ0 z 正态总体σ2已知 (2) H0：μ = μ0 H1：μ＞μ0 z 0 (3) H0：μ = μ0 H1：μ＜μ z 0

总体均值的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：μ=μ0 H1：μ≠μ0 t 0 正态总体σ2未知(n＜30) (2) H0：μ = μ0 H1：μ＞μ0 t 0 (3) H0：μ = μ0 H1：μ＜μ t 0

总体均值的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：μ=μ0 H1：μ≠μ0 z 0 非正态总体n≥30 σ2已知或未知 (2) H0：μ = μ0 H1：μ＞μ0 z 0 (3) H0：μ = μ0 H1：μ＜μ z 0

两个总体均值之差的检验 条件检验条件量 H0、H1 拒绝域 (1) H0： μ1=μ2 H1: μ1 ≠ μ2 z 两个正态总体 0 (2) H0：μ1 = μ2 H1: μ1＞ μ2 z 已知 0 (3) H0： μ1 = μ2 H1：μ1＜ μ2 z 0

两个总体均值之差的检验 条件检验条件量 H0、H1 拒绝域 (1) H0: μ1 = μ2 H1: μ1 ≠ μ2 t 两个正态总体 0 (2) H0: μ1 = μ2 H1: μ1＞ μ2 t 未知，但相等 0 (3) H0： μ1 = μ2 H1： μ1＜ μ2 t 0

两个总体均值之差的检验 条件检验条件量 H0、H1 拒绝域两个非正态体n1≥30 n2≥30 (1) H0：μ1 = μ2 H1：μ1 ≠ μ2 z 0 (2) H0：μ1 = μ2 H1：μ1＞ μ2 z 已知或未知 0 (3) H0：μ1 = μ2 H1：μ1＜ μ2 z 0

总体成数的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：P=P0 H1：P≠P0 z 0 np≥5 nq≥5 (2) H0：P = P0 H1：P＞P0 z 0 (3) H0：P = P0 H1：P＜P0 z 0

两个总体成数之差的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：P1=P2 H1：P1 ≠P2 z n1p1≥5 n1q1≥5 n2p2≥5 n2q2≥5 0 (2) H0： P1 ≤P2 H1：P1＞P2 z 0 (3) H0：P1 ≥P2 H1：P1＜P2 z 0

一个总体方差的检验 条件检验条件量 H0、H1 拒绝域总体服从正态分布

两个总体方差之比的检验 条件检验条件量 H0、H1 拒绝域 F 总体服从正态分布 F F

方差分析 一、问题的提出随机原则各组产品的质量是否有显著差异？同一原材料加工产品质量产地

一个班级的学生，某门课程的成绩 专业分组随机原则各组学生的成绩是否有显著差异？？？随机误差差异加以比较系统误差若存在显著性差异，则说明该因素的影响是显著的

二、假定条件 各组水平都服从正态分布，均值和方差未知，但方差相同（i=1,2,3, ···,k)

三、单因素方差分析 H0：各水平的均值相等 H1：各水平均值不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和：SST= SSB + SSE 自由度： n-1 = k-1 + n-k 方差： MST MSB MSE 检验量=系统误差/随机误差即： F=MSB/MSE 检验规则

因为：F=3.15 < 4.26 或 P（0.092) > (0.05) 所以接受原假设，认为不同的家庭背景对学员成绩没有显著影响。

四、不考虑交互作用的两因素方差分析 H0 (A):因素A的k个水平的均值相等 H1 (A): 不全相等 H0(B): 因素B的h个水平的均值相等 H1(B):不全相等总离差平方和=组间离差平方和 +组内离差平方和离差平方和：SST= SS(A)+SS(B)+ SSE 自由度： kh-1 = k-1 +h-1 + (k-1)(h-1) 方差： MST MS(A) MS(B) MSE 检验量=系统误差/随机误差即： F(A)=MS(A)/MSE F(B)=MS(B)/MSE 检验规则

因为：F(A)=0.393<5.14 F(B)=0.028<4.76 或 P(A)（0.69) > (0.05) P(B)（0.99) > (0.05) 所以接受原假设，认为不同的机器设备和不同的工艺方法对生产量都没有显著影响。

五、考虑交互作用的两因素方差分析 H0 (A):因素A的k个水平的均值相等 H1(A）：不全相等 H0(B): 因素B的h个水平的均值相等 H1(B)：不全相等 H0(AB): AB之间不存在交互影响的作用 H1(AB)：有交互影响总离差平方和=组间离差平方和 +组内离差平方和离差平方和:SST= SS(A)+SS(B)+SS(AB)+ SSE 自由度： khm-1 = k-1 + h-1 + (k-1)(h-1)+kh(m-1) 方差： MST MS(A) MS(B) MS(AB) MSE 检验量=系统误差/随机误差即： F(A)=MS(A)/MSE F(B)=MS(B)/MSE F(AB)=MS(AB)/MSE

检验规则 例：

第五章 参数估计和假设检验