1.57k likes | 1.72k Views
任务三 数据资料推断分析. 一、实训目的和要求. 市场调查数据的推断统计分析可以通过非全面调查,利用样本资料达到对总体的数量特征的认识。通过实训,培养学生对市场调查数据进行推断统计分析的能力。 通过实训,要求: 1 、了解市场调查数据的推断统计分析的概念、步骤、内容与方法。 2 、掌握总体参数估计的基本方法。 3 、掌握假设检验的基本方法。 4 、针对调查获取的信息资料进行推断统计分析。. 二、场景.
E N D
一、实训目的和要求 • 市场调查数据的推断统计分析可以通过非全面调查,利用样本资料达到对总体的数量特征的认识。通过实训,培养学生对市场调查数据进行推断统计分析的能力。 • 通过实训,要求: • 1、了解市场调查数据的推断统计分析的概念、步骤、内容与方法。 • 2、掌握总体参数估计的基本方法。 • 3、掌握假设检验的基本方法。 • 4、针对调查获取的信息资料进行推断统计分析。
二、场景 • 必胜克是全球著名的休闲餐饮品牌,它和肯德基同属全球最大的连锁餐饮集团之一——百胜餐饮集团。必胜客在重庆有三家店:江北、沙坪坝、南坪,现在必胜客拟对重庆市的三家店顾客平均月消费支出差异情况进行调查,决定采用抽样调查的方法。请将通过实地调查得来的信息资料进行编码并录入计算机,形成必胜客重庆商圈顾客平均月消费支出抽样调查数据集,并根据调查数据集对三家店的顾客平均月消费支出情况进行差异检验。
三、相关知识 • 推断统计:抽样统计 • (一)总体参数估计 • (二)假设检验
由一个样 本或一糸 列样本所 得的结果 来推断总 体的特征 假设检验 统 计 推 断 参数估计
任务 分析误差产生的原因 确定差异的性质 排除误差干扰 对总体特征做出正确判断
假设检验的原理与方法 第一节 样本平均数的假设检验 第二节 样本频率的假设检验 第三节 参数的区间估计与点估计 第四节 方差的同质性检验 第五节
第一节 假设检验的原理与方法
第一节 假设检验 一 概念 : 假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
小概率原理 概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。 如果假设一些条件,并在假设的条件下能够准确地算出事件A出现的概率α 为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能发生。 =0.05/0.01
平均数的检验 参数检验 频率的检验 假 设 检 验 方差的检验 秩和检验 符号检验 非参数检验 游程检验 秩相关检验
二 、假设检验的步骤 例:设心脏病患者的血红蛋白含量具平均数0=126(mg/L), 2 =240(mg/L)2的正态分布。现用缓舒平对6位心脏病患者进行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。 治疗前 0=126 2 =240 N ( 126,240 ) 治疗后 n =6 x =136 未知 那么 =0 ? 即缓舒平对治疗心脏是否有效?
1 、提出假设 H0 误差 效应 无效假设 /零假设 /检验假设 0= 对 立 处理 效应 备择假设 /对应假设 0 HA
平均数的假设检验 x-0=136-126=10(mg/L)这一差数 是由于治疗造成的,还是抽样误差所致。 例:缓舒平治疗心脏病是否能提高血红蛋白含量? 检验治疗后的总体平均数是否还是治疗前的126(mg/L)? H0:μ=μ0 =126(mg/L) HA:μ≠μ0 本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示缓舒平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即缓舒平有疗效。
2 、 确定显著水平 能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平。 =0.05 =0.05 显著水平* P< =0.01 极显著水平**
x- 136-126 u= = = 1.581 x √40 3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选择使用不同的检验方法。 例: P( u >1.581)=2×0.0571=0.1142
4、作出推断结论:是否接受假设 小 概 率 原 理 接受H0 否定HA P> 可能正确 否定H0 接受HA P< 可能错误
例:上例中 P=0.1142>0.05 所以接受H0,从而得出结论:使用缓舒平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。
实训: 通过预测,重庆市近年来商品房及各户型面积成交量如下,现需检验预测结果的可信度
实训:用Excel对P152的数据计算统计量样本均值、样本方差和样本标准差的观测值.实训:用Excel对P152的数据计算统计量样本均值、样本方差和样本标准差的观测值. • (1) 函数AVERAGE的使用格式: • AVERAGE(number1, number2, ...) • 功能:计算给定样本的算术平均值. • (2) 函数VAR的使用格式: • VAR(number1,number2,...) • 功能:计算给定样本的方差. • (3) 函数STDEV的使用格式: • STDEV(number1,number2,...) • 功能:计算给定样本的标准差.
由于样本数小于30,宜采用t检验的方法进行分析(以小于70 m2的住宅面积需求为例),检验方法与步骤如下: • ①建立假设,提出虚无假设与备择假设。 • H0:μ=μ0,即预测值与实际值没有显著差异; • H1:μ≠μ0,即预测值与实际值有显著差异。 • ②确定差异的显著性水平α=0.05。 • ③计算概率P值。P=0.5709。 • ④判断结果。由于0.5709>0.05,即P值大于显著性水平值α,故接受H0,认为运用模型得出的预测值与实际值没有显著差异,模型构建合理。
已知: P( u >1.96) =0.05 0.025 0.95 0.025 P( u >2.58) =0.01 u >1.96 P( u ) <0.05 差异达显著水平 u >2.58 P( u ) <0.01 差异达极显著水平
P(-1.96x <x< +1.96x) =0.95 + 1.96x 三 、双尾检验与单尾检验 0.025 0.95 0.025 左尾 右尾 0 -1.96x +1.96x 否定区 接受区 否定区 临界值: + ux u
P(-2.58x <x< +2.58x) =0.99 0.005 0.99 0.005 左尾 右尾 0 -2.58x +2.58x 否定区 接受区 否定区 双尾检验 (two-sided test) 临界值: + 2.58x
单尾检验 (one-sided test) 假设: H0: ≤0 HA: > 0 H0: ≥0 HA: < 0 0.95 0.05 0.05 0.95 接受区 1.64 -1.64 接受区 否定区 右尾检验 左尾检验
2 2 否定区 接受区 否定区 接受区 否定区 双尾 检验 分位数 u 0.05=1.96 u 0.01=2.58 > 单尾 检验 分位数 u 0.05=1.64 u 0.01=2.33 查表时,单尾概率等于双尾概率乘以2
假设检验的两类错误 H0正确 H0 错误 否定H0错误() 推断正确(1-) 接受H0推断正确(1-)错误() 四 、两类错误 第一类错误(type I error),又称弃真错误或 错误; 第二类错误( type IIerror) ,又称纳伪错误或 错误
Ⅰ Ⅱ 0 0.95 0.025 =0 错误 Ⅰ和Ⅱ重合 0.025 犯第一类错误的概率等于显著水平值
Ⅰ和Ⅱ不重合 Ⅰ Ⅱ C1 C2 2 2 -u 0 u 犯第二类错误的概率记为值
结论 1、 两类错误既有联系又有区别 错误只在否定H0时发生 错误只在接受H0时发生 错误增加 错误减小 错误增加 错误减小
结论 2、 还依赖于 - 0 的距离 3、n ,2 可使两类错误的概率都减小.
0.95 0.05 0.05 0.95 接受区 1.64 -1.64 接受区 否定区 单尾检验 否定区只在一侧 右尾检验 左尾检验
假设检验的步骤: 分 析 题 意 提 出 假 设 确 定 显 著 水 平 计 算 检 验 统 计 量 作 出 推 断
第二节 样本平均数的假设检验
大样本平均数的假设检验 --u检验 单样本 小样本平均数的假设检验 --t检验 双样本
样本平均数 的假设检验 一、一个样本平均数 的假设检验
适用范围:检验某一样本平均数x所属的总体平均数是否和某一指定的总体平均数0相同。若相同,则说明该样本属于这个以0为平均数的指定总体;若不相同,则说明该样本所属的总体与这个指定总体( 0)不同,即有显著或极显著差异。
1、总体方差σ2已知,无论n是否大于30都可采用u检验法1、总体方差σ2已知,无论n是否大于30都可采用u检验法 例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,其平均体长为7.65cm, 问新育苗方法与常规方法有无显著差异? 分析 (1)这是一个样本平均数的假设检验,因总体σ2已知 , 采用u检验; (2)新育苗方法的鱼苗体长≥ 或≤常规方法鱼苗体长, 应进行双尾检验。
H0:μ=μ0=7.25(cm), 即新育苗方法与常规方法所育鱼苗一月龄体长相同; HA:μ≠μ0 (1)假设 选取显著水平α=0.05 (2)水平 (3)检验 u >1.96 (4)推断 否定H0,接受HA; 认为新育苗方法一月龄体长与常规方法有显著差异。
样本(n>30) x 2、总体方差σ2未知,但n>30时,可用样本方差s2来代替 总体方差σ2,仍用u检验法 s2 总体 (μ0) σ2
例:生产某种纺织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm,例:生产某种纺织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm, 问该棉花品种的纤维长度是否符合纺织品的生产要求? 分析 (1)这是一个样本平均数的假设检验,因总体σ2未知, n=400 > 30,可用s2代替σ2进行u检验; (2)棉花纤维只有>30mm才符合纺织品的生产要求,因 此进行单尾检验。
(1)假设 H0:μ≤ μ0=30(cm), 即该棉花品种纤维长度达不到纺织品生产的要求。 HA:μ>μ0 选取显著水平α=0.05 (2)水平 (3)检验 u <1.645 (4)推断 接受H0,否定HA; 认为该棉花品种纤维长度不符合纺织品生产的要求。
样本(n<30) x 3、总体方差σ2未知,且n<30时,可用样本方差s2来代替 总体方差σ2,采用df=n-1的t检验法 s2 总体 (μ0) σ2
例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L) 试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。 分析 (1)这是一个样本平均数的假设检验,因总体σ2未知, n=10 < 30,可用s2代替σ2进行 t 检验; (2)该次测定的水中含氧量可能>或<多年平均值,用双 尾检验。
H0:μ= μ0=4.5(mg/L),即认为该次测定与多年平均值没有显著差别。 HA: μ≠ μ0 (1)假设 (2)水平 选取显著水平α=0.05 (3)检验 t 0.05(9) =2.262 P>0.05 (4)推断 在0.05显著水平上,接受H0,否定HA; 认为该次抽样所测结果与多年平均值无显著差别,属于随机误差。
样本平均数 的假设检验 二、两个样本平均数 的假设检验
适用范围:检验两个样本平均数x1和x2所属的总体平均数1和2是否来自同一总体。适用范围:检验两个样本平均数x1和x2所属的总体平均数1和2是否来自同一总体。
样本1 X1 样本2 X2 两个样本平均数的假设检验步骤 总体1 μ1 1、提出假设 总体2 μ2 无效假设H0: μ1=μ2,两个平均数的差值 是随机误差所引起的; 备择假设HA: μ1=μ2,两个平均数的差值 除随机误差外 还包含其真实的差异,即由处理引起的;
2、确定显著水平:0.05或0.01 3、检验统计量 两个样本平均数的差数 (1)样本平均数差数的平均数 = 总体平均数的差数.