400 likes | 567 Views
第四讲 计量资料的统计推断. (二). 王晓莉 http://www.qingis.com/wang.htm xlwang@bjmu.edu.cn. 随机抽样. 统计量. 参数?. ( 、、). ( X 、 s 、 p ). 统计推断. 参数估计 假设检验. 主要内容. 第一节: t 分布 第二节: 可信区间的估计 ( t 分布 法) 第三节: 均数的 t 检验 第四节: 均数假设检验的注意事项. 第一节 t 分布. 复习两个概念: ▲ 正态分布 ▲ 标准正态分布 u ( z ) 分布.
E N D
第四讲 计量资料的统计推断 (二) 王晓莉 http://www.qingis.com/wang.htm xlwang@bjmu.edu.cn
随机抽样 统计量 参数? ( 、、) (X、s、p) 统计推断 参数估计 假设检验
主要内容 第一节:t分布 第二节:可信区间的估计( t 分布 法) 第三节:均数的 t 检验 第四节:均数假设检验的注意事项
第一节t分布 复习两个概念: ▲ 正态分布 ▲ 标准正态分布 u(z) 分布
对X进行标准正态转化以后: Z~N(0, 1); ~t
t分布的主要内容: t分布的概念:小样本的概率分布 t分布图形: t分布面积特征( t界值表):
t值表(附表2 P118 ) 横坐标:自由度, υ 纵坐标:概率, p, 即曲线下阴影部分的面积; 表中的数字:相应的 |t | 界值。
t值表规律: (1) 自由度(υ)一定时,p 与 t成反比; (2) 概率(p) 一定时, υ 与 t成反比;
第二节:可信区间的估计 t 分布 法 例题:某产科医生统计正常妇女骨盆x线的资料40例,得到骨盆入口前后径均数12.0cm,标准差0.9cm,求正常妇女骨盆入口前后径的95%可信区间。 应用条件:样本量小于100,已知均数和标准差。 公式 (x t·s x,xt·s x) 即(x±t·s x) 意义
第三节 均数的 t 检验 一、小样本均数与已知总体均数比较的t 检验 二、 两个小样本均数比较的t 检验 三、配对资料的t 检验
例题:请选用合适的统计学方法进行分析 • 例1.已知某地婴儿的出生体重均数为3.20kg,一个产科医生随机调查25名难产儿,其平均体重为3.42kg,问?? • 例2.某内科医生随机测量了25名健康人血中ß 脂旦白含量,均数为491.4 mg/100ml,标准差为138.5 mg/100ml;同时测量23名心肌梗塞病人血中ß 脂旦白含量,均数为672.3 mg/100ml,标准差为150.7 mg/100ml;问?? • 例3.某营养学家想研究控制饮食是否对高血脂病人有疗效,对18名高血脂病人进行了一年的饮食控制,观察他们在控制饮食前后的血清胆固醇变化,得到了如下资料(P34,表),问??
一、小样本均数与已知总体均数比较的t 检验 ▲目的:比较一个小样本均数所代表的未知总 体均数与已知的总体均数有无差别。 ▲计算公式: P31 t 统计量: 自由度:n - 1
▲ 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数及该样本标准误; (3) 样本量小于100; (4) 样本来自正态或近似正态总体。
已知: (1) 一个总体均数:3.20kg ; (2) 一个样本均数:3.42kg ; (3) 可计算出样本标准误:3.42/ 5 (4) n =25 < 100;
假设检验: ▲ 建立假设: 检验假设:难产儿平均出生体重与一般婴儿平均出生体重相同; 备择假设:难产儿平均出生体重与一般婴儿平均出生体重不同; ▲ 确定显著性水平( ):0.05
▲ 计算统计量:t 统计量:t =2.62 ▲ 确定概率值: n= 25, 自由度 = n – 1 = 24, t0.05(24) = 2.064 t > t0.05(24) , p < 0.05 ▲ 做出推论: p < 0.05(), 小概率事件发生了,原假设不成立;拒绝H0 , 接受H1, 可认为: 难产儿平均出生体重与一般婴儿平均出生体重不同;难产儿平均出生体重比一般婴儿平均出生体重大;难产儿平均出生体重与一般婴儿平均出生体重差别显著。
二、两个小样本均数比较的 t检验 ▲目的:由两个样本均数的差别推断两样本 所代表的总体均数间有无差别。 ▲计算公式及意义: P32 t 统计量: 自由度:n1 + n2 –2
▲ 适用条件: (1)已知/可计算两个样本均数及它们的标准差 ; (2)两个样本之一的例数少于100; (3)样本来自正态或近似正态总体(如何判断); (4)两个样本方差不能差别太大(方差齐,如何判断)。
已知: • 一个样本: 均数491.4, 标准差138.5 (mg/100ml); • 另一个样本:均数672.3, 标准差150.7 (mg/100ml); • (2) n1=25; n2=23 • (3) 近似正态分布:138.5 ×2 < 491.4; 150.7 × 2 < 672.3 • (4) 方差齐:25/23 < 2
假设检验: ▲ 建立假设: 检验假设:心肌梗塞病人血清 ß 脂旦白与正常人血 清 ß 脂旦白均数相同; 备择假设:心肌梗塞病人血清 ß 脂旦白与正常人血 清 ß 脂旦白均数不同; ▲ 确定显著性水平( ):0.05
▲ 计算统计量:t 统计量:t = 4.34; 自由度:25 + 23 –2 = 46 表中: t 0.05(40) = 2.021 t 0.05(50) = 2.009 t 0.05(46) = ??? ▲ 确定概率值: t > t 0.05(46) , p < 0.05;
▲ 做出推论: 因为 p < 0.05( ), 拒绝H0 , 接受H1 : 可认为心肌梗塞病人血清 ß 脂旦白与正常人血清 ß 脂旦白均数不同; 两样本均数差别有显著性。
三、配对资料的 t 检验 什么是配对资料? 治疗前后;不同检验方法;进行配对;…… 一对观察对象之间除了处理因素/研究因素之外,其它因素基本齐同。 目的:判断不同的处理是否有差别
公式:t (P34)=0.214 自由度:对子数 – 1 查表: t 0.05(17) =?? 适用条件:两组配对计量资料。
第四节 均数假设检验的注意事项
1、正确理解假设检验的结论(概率性) • 假设检验的结论是根据概率推断的,所以不是绝对正确的: • 当 p ≤, 拒绝 H0, 接受H1,按接受H1下结论,可能犯错误; • (2) 当 p > , 不能拒绝 H0, 不能接受H1,按不能接受H1下结论,也可能犯错误;
2、第 I 类错误和第 II 类错误 假设检验的结果有两种。 • (1) 当拒绝 H0 时, 可能犯错误,可能拒绝了实际上成立的H0, 称为 І类错误( “弃真”的错误 ),其概率大小用 α表示。(理解什么是“真”) • (2)当不能拒绝 H0 时,也可能犯错误,没有拒绝实际上不成立的H0, 这类称为 II 类错误( ”存伪”的错误), 其概率大小用 β表示, β值一般不能确切的知道。(理解什么是“伪”)
II 类错误的概率 β值的两个规律: 1. 当样本量一定时, α愈小, 则β愈大,反之…; 2.当 α一定时, 样本量增加, β减少.
3. 统计学中的差异显著或不显著,和日常生活中所说的差异大小概念不同. (有无“显著性”的实质是什么?不仅区别于均数差异的大小,还区别于均数变异的大小) 4、其它注意事项 选择假设检验方法要注意符合其应用条件; 当不能拒绝H0时,即差异无显著性时,应考虑 的因素:可能是样本例数不够; 单侧检验与双侧检验的问题
小 结 第一节 标准误 第二节 总体均数的估计 第三节 假设检验 第四节 均数的 u 检验 第五节 t分布 第六节 均数的 t 检验 第七节 均数假设检验的注意事项
分析下列问题: 随机测量某地初生男女婴儿胸围(cm),数据如下。 男婴:n1=250, s1=1.79cm X1=33.5cm 女婴:n2=236, s2=1.62cm X2= 32.8cm 试问: (1) 该地男婴胸围的95%正常值范围是多少? (2) 该地女婴胸围的99%可信区间是多少? (3) 该地男女婴的胸围是否相同?
是非判断: • ( )1.标准误是一种特殊的标准差,其表示抽样误差的大小。 • ( )2.N一定时,测量值的离散程度越小,用样本均数估计总体均数的抽样误差就越小。 • ( )3.假设检验的目的是要判断两个样本均数的差别有多大。
选择题: • 按α=0.10水准做t检验,P>0.10,不能认为两总体均数不相等,此时若推断有错,其错误的概率为( )。 • A.大于0.10 • B.β,而β未知C.小于0.10 • D.1-β,而β未知
2.两个样本均数比较,经t检验,差异有显著 性,p越小,说明( ) A.两样本均数差别越大 B.两总体差别越大 C.越有理由认为两总体均数不同 D.越有理由认为两样本均数不同
思考题: 1.标准差和标准误有何区别和联系? 2.可信区间和参考值范围有何不同? 3. 一类错误和二类错误的区别