680 likes | 910 Views
概率论与数理统计第 24 讲. 本讲义可在网址 http://math.shekou.com 或 ftp://math.shekou.com 下载. 第八章 方差分析与回归分析. § 8.1 单因素试验的方差分析.
E N D
概率论与数理统计第24讲 本讲义可在网址http://math.shekou.com 或 ftp://math.shekou.com 下载
在科学试验, 生产实践和社会生活中, 影响一个事件的因素往往很多. 例如, 在工业生产中, 产品的质量往往受到材料, 设备, 技术及员工素质的影响; 又如, 在工作中, 影响个人收入的因素也是多方面的, 除了学历, 专业, 工作时间, 性别等方面外, 还受到个人能力, 经历及机遇等偶然因素的影响. 方差分析就是希望找出对事件的最终结果有显著影响的因素, 通过建立数学模型, 鉴别各个因素影响效应.
一, 基本概念在方差分析中, 我们把要考察的对象的某种特征称为试验指标. 影响试验指标的条件称为因素. 因素可分为两类, 一类是人们可以控制的(如原材料, 设备, 学历, 专业等因素); 另一类是人们无法控制的(如员工素质及机遇等因素).
下面所讨论的都是可控制的因素. 因素所处的状态, 称为该因素的水平, 如果有一项试验中只有一个因素在改变, 则称为单因素试验; 如果有多于一个因素在改变, 则称为多因素试验. 为方便起见, 今后用大写字母A,B,C,等表示因素, 用大写字母加下标表示该因素的水平, 如A1,A2,…等.
例1设有三台机器, 用来生产规格相同的铝合金薄板. 取样, 测量薄板的厚度精确至千分之一厘米. 得结果如下表:
这里, 试验的指标是薄板的厚度, 机器为因素, 不同的三台机器就是这个因素的三个不同的水平. 如果假定除机器这一因素外, 材料的规格, 操作人员的水平等其它条件都相同, 这就是单因素试验.试验的目的是为了考察各台机器所生产的薄板的厚度有无显著差异, 即考察机器这一因素对厚度有无显著影响. 如果厚度有显著差异, 就表明机器这一因素对厚度的影响是显著的.
二, 假设前提设单因素A具有r个水平, 分别记为A1,A2,…,Ar, 在每个水平Ai(i=1,2,…,r)下, 要考察的指标可以看成一个总体, 故有r个总体, 并假设:(1) 每个总体均服从正态分布;(2) 每个总体的方差相同;(3) 从每个总体中抽取的样本相互独立.
那么, 要比较各个总体的均值是否一致, 就是要检验各个总体的均值是否相等, 设第i个总体的均值为mi, 则要检验的假设为H0: m1=m2==mr.H1: m1,m2,,mr不全相等.通常备择假设H1可以不写.
三, 偏差平方和及其分解定义水平Ai下的数据和为 其样本均值为
所有水平样本总均值为 定义总偏差平方和ST为
定义组间(偏差)平方和SA为 定义组内(偏差)平方和SE为 可以证明 ST=SA+SE (1.4)
四, SE与SA的统计特性ST=SA+SE如果H0成立, 则所有的Xij都服从正态分布N(m,s2), 且相互独立, 可以证明:(1) ST/s2~c2(n-1);(2) SE/s2~c2(n-r);(3) SA/s2~c2(r-1).(4) SE与SA相互独立.
五, 检验方法如果组内差异比组内差异大得多, 即说明因素的各水平间有显著差异, r个总体不能认为是同一个正态总体, 应认为H0不成立. 此时, 比值 有偏大趋势, 取F为统计量, 当H0为真时, 有F~(r-1,n-r).
F~(r-1,n-r)对给定的检验水平a, 查Fa(r-1,n-r)的值, (1) 若F>Fa(r-1,n-r)时, 拒绝H0, 表示因素A的各水平下的效应有显著差异;(2) 若F<Fa(r-1,n-r)时, 则接受H0, 表示因素A的各水平下的效应无显著差异.
在许多实际问题中, 往往要同时考虑两个因素对试验指标的影响. 例如, 要同时考虑工人的技术和机器对产品质量是否有显著影响. 这里涉及到工人的技术和机器这样两个因素. 多因素方差分析与单因素方差分析的基本思想是一致的, 不同之处就在于各个因素不但对试验指标起作用, 而且各因素不同水平的搭配也对试验指标起作用. 统计学上把多因素不同水平的搭配对试验指标的影响称为交互作用.交互作用的效应只有在有重复的试验中才能分析出来.
一, 无重复试验双因素方差分析设因素A,B作用于试验指标, 因素A有r个水平A1,A2,…,Ar, 因素B有s个水平B1,B2,…,Bs. 对因素A,B的每一个水平的一对组合(Ai,Bj), (i=1,2,…,r,j=1,2,…,s)只进行一次试验, 得到rs个试验结果Xij, 列于下表中
因 素 B 试 验 结 果 因素A
1. 假设前提假设前提与单因素方差分析的假设前提相同, 仍假设:(1) Xij~N(mij,s2), mij, s2未知, i=1,…,r;j=1,…,s.(2) 每个总体的方差相同;(3) 各Xij相互独立, i=1,…,r;j=1,…,s
要比较同一因素的各个总体均值是否一致, 就是要检验各个总体的均值是否相等, 故要检验的假设为H0A: m1j=m2j=…=mrjj=1,…,s,H0B: mi1=mi2=…=misi=1,…,r.H1A: m1j,m2j,…,mrj不全相等.H1B: mi1,mi2,…,mis不全相等.
总偏差平方和: 因素A的偏差平方和: 因素B的偏差平方和: 误差平方和: 可证明ST=SA+SB+SE,
可证明当H0A,H0B成立时, 有(1) ST/s2, SA/s2, SB/s2, SE/s2分别服从自由度依次为rs-1, r-1, s-1, (r-1)(s-1)的c2分布.(2) SA,SB,SE相互独立.(3)
3. 检验方法对显著性水平a, H0A的拒绝域为FAFa(r-1,(r-1)(s-1));H0B的拒绝域为FBFa(s-1,(r-1)(s-1));
二, 等重复试验双因素方差分析设因素A,B作用于试验指标. 因素A有r个水平A1,A2,…,Ar, 因素B有s个水平B1,B2,…,Bs. 对因素A,B的每一个水平的一对组合(Ai,Bj), (i=1,2,…,r, j=1,2,…,s)只进行t(t2)次试验(称为等重复试验), 得到rst个试验结果Xijk (i=1,…,r; j=1,…,s; k=1,…,t).
假设各Xijk相互独立, 并有Xijk~N(mij,s2),经过一番分析, 可将mij分解表示为mij=m+ai+bj+gij (i=1,…,r; j=1,…,s),其中ai称为水平Ai的效应, bij称为水平Bj的效应, gij为水平Ai和水平Bj的交互效应.
要检验的假设为:H0A: a1=a2=…=ar=0.H1A: a1,a2,…,ar不全为零.H0B: b1=b2=…=bs=0.H1B: b1,b2,…,bs不全为零.H0AB: g11=g12=…=grs=0,H1AB: g11,g12,…,grs不全为零.
称下列ST为总偏差平方和: 上式可分解为: ST=SE+SA+SB+SAB
类似地, 可以证明当H0A,H0B, H0AB成立时, 有(1) ST/s2, SA/s2, SB/s2, SAB/s2,SE/s2分别服从自由度依次为rst-1, r-1, s-1, (r-1)(s-1), rs(t-1)的c2分布(2) SA,SB,SAB,SE相互独立.
3. 检验方法当H0A为真时, 取显著性水平为a, 得假设H0A的拒绝域为 FAFa(r-1,rs(t-1))
当H0B为真时, 取显著性水平为a, 得假设H0B的拒绝域为 FBFa(s-1,rs(t-1))
当H0AB为真时, 取显著性水平为a, 得假设H0AB的拒绝域为 FABFa((r-1)(s-1),rs(t-1))
变量间的关系可分为确定性和非确定性的两类.例如, 人的身高和体重的关系, 人的血压和年龄的关系, 某产品的广告投入与销售额之间的关系, 是有关联的, 但它们之间的关系又不能用普通函数表示. 称这类非确定性关系为相关关系. 而近似地表示它们之间的相关关系的函数被称为回归函数.
最简单的情形是由两个变量组成的关系. 表示为Y=f(x)但是, 由于两个变量之间不存在确定的函数关系, 因此必须把随机波动考虑进去, 就有Y=f(x)+e其中Y是随机变量, x是普通变量, e是随机变量(称为随机误差).
回归分析就是根据已得的试验结果以及以往的经验来建立统计模型, 并研究变量间的相关关系, 建立起变量之间关系的近似表达式, 即经验公式, 并由此对相应的变量进行预测和控制等.本节主要介绍一元线性回归模型的估计, 检验以及相应的预测和控制等问题.
一, 引例为了研究某一化学反应过程中温度x对产品得率Y的影响. 测得数据如下: 将xi作为横坐标, yi作为纵坐标, 在xOy坐标系中作出散点图
可见这些点大致散布在某一条直线附近, 即, 该化学反应过程中温度与产品得率之间大致成线性关系, 这些点与直线的偏离是由于测试过程中随机因素影响的结果, 故化学反应过程中产品得率与温度的数据可假设有如下的结构形式:yi=b0+b1xi+ei, i=1,2,…,10其中ei是测试误差, 它反映了变量之间的不确定关系.
二, 一元线性回归模型一般地, 当随机变量Y与普通变量x之间有线性关系时, 可设Y=b0+b1x+e, (3.3)e~N(0,s2), 其中b0,b1为待定系数.设(x1,Y1),(x2,Y2),…,(xn,Yn)是取自总体(x,Y)的一组样本, 而(x1,y1),(x2,y2),…,(xn,yn)是该样本的观察值.