1 / 68

概率论与数理统计第 24 讲

概率论与数理统计第 24 讲. 本讲义可在网址 http://math.shekou.com 或 ftp://math.shekou.com 下载. 第八章 方差分析与回归分析. § 8.1 单因素试验的方差分析.

louisa
Download Presentation

概率论与数理统计第 24 讲

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 概率论与数理统计第24讲 本讲义可在网址http://math.shekou.com 或 ftp://math.shekou.com 下载

  2. 第八章 方差分析与回归分析

  3. §8.1 单因素试验的方差分析

  4. 在科学试验, 生产实践和社会生活中, 影响一个事件的因素往往很多. 例如, 在工业生产中, 产品的质量往往受到材料, 设备, 技术及员工素质的影响; 又如, 在工作中, 影响个人收入的因素也是多方面的, 除了学历, 专业, 工作时间, 性别等方面外, 还受到个人能力, 经历及机遇等偶然因素的影响. 方差分析就是希望找出对事件的最终结果有显著影响的因素, 通过建立数学模型, 鉴别各个因素影响效应.

  5. 一, 基本概念在方差分析中, 我们把要考察的对象的某种特征称为试验指标. 影响试验指标的条件称为因素. 因素可分为两类, 一类是人们可以控制的(如原材料, 设备, 学历, 专业等因素); 另一类是人们无法控制的(如员工素质及机遇等因素).

  6. 下面所讨论的都是可控制的因素. 因素所处的状态, 称为该因素的水平, 如果有一项试验中只有一个因素在改变, 则称为单因素试验; 如果有多于一个因素在改变, 则称为多因素试验. 为方便起见, 今后用大写字母A,B,C,等表示因素, 用大写字母加下标表示该因素的水平, 如A1,A2,…等.

  7. 例1设有三台机器, 用来生产规格相同的铝合金薄板. 取样, 测量薄板的厚度精确至千分之一厘米. 得结果如下表:

  8. 这里, 试验的指标是薄板的厚度, 机器为因素, 不同的三台机器就是这个因素的三个不同的水平. 如果假定除机器这一因素外, 材料的规格, 操作人员的水平等其它条件都相同, 这就是单因素试验.试验的目的是为了考察各台机器所生产的薄板的厚度有无显著差异, 即考察机器这一因素对厚度有无显著影响. 如果厚度有显著差异, 就表明机器这一因素对厚度的影响是显著的.

  9. 二, 假设前提设单因素A具有r个水平, 分别记为A1,A2,…,Ar, 在每个水平Ai(i=1,2,…,r)下, 要考察的指标可以看成一个总体, 故有r个总体, 并假设:(1) 每个总体均服从正态分布;(2) 每个总体的方差相同;(3) 从每个总体中抽取的样本相互独立.

  10. 那么, 要比较各个总体的均值是否一致, 就是要检验各个总体的均值是否相等, 设第i个总体的均值为mi, 则要检验的假设为H0: m1=m2==mr.H1: m1,m2,,mr不全相等.通常备择假设H1可以不写.

  11. 三, 偏差平方和及其分解定义水平Ai下的数据和为 其样本均值为

  12. 所有水平样本总均值为 定义总偏差平方和ST为

  13. 定义组间(偏差)平方和SA为 定义组内(偏差)平方和SE为 可以证明 ST=SA+SE (1.4)

  14. 四, SE与SA的统计特性ST=SA+SE如果H0成立, 则所有的Xij都服从正态分布N(m,s2), 且相互独立, 可以证明:(1) ST/s2~c2(n-1);(2) SE/s2~c2(n-r);(3) SA/s2~c2(r-1).(4) SE与SA相互独立.

  15. 五, 检验方法如果组内差异比组内差异大得多, 即说明因素的各水平间有显著差异, r个总体不能认为是同一个正态总体, 应认为H0不成立. 此时, 比值 有偏大趋势, 取F为统计量, 当H0为真时, 有F~(r-1,n-r).

  16. F~(r-1,n-r)对给定的检验水平a, 查Fa(r-1,n-r)的值, (1) 若F>Fa(r-1,n-r)时, 拒绝H0, 表示因素A的各水平下的效应有显著差异;(2) 若F<Fa(r-1,n-r)时, 则接受H0, 表示因素A的各水平下的效应无显著差异.

  17. §8.2 双因素试验的方差分析

  18. 在许多实际问题中, 往往要同时考虑两个因素对试验指标的影响. 例如, 要同时考虑工人的技术和机器对产品质量是否有显著影响. 这里涉及到工人的技术和机器这样两个因素. 多因素方差分析与单因素方差分析的基本思想是一致的, 不同之处就在于各个因素不但对试验指标起作用, 而且各因素不同水平的搭配也对试验指标起作用. 统计学上把多因素不同水平的搭配对试验指标的影响称为交互作用.交互作用的效应只有在有重复的试验中才能分析出来.

  19. 一, 无重复试验双因素方差分析设因素A,B作用于试验指标, 因素A有r个水平A1,A2,…,Ar, 因素B有s个水平B1,B2,…,Bs. 对因素A,B的每一个水平的一对组合(Ai,Bj), (i=1,2,…,r,j=1,2,…,s)只进行一次试验, 得到rs个试验结果Xij, 列于下表中

  20. 素 B 试 验 结 果 因素A

  21. 1. 假设前提假设前提与单因素方差分析的假设前提相同, 仍假设:(1) Xij~N(mij,s2), mij, s2未知, i=1,…,r;j=1,…,s.(2) 每个总体的方差相同;(3) 各Xij相互独立, i=1,…,r;j=1,…,s

  22. 要比较同一因素的各个总体均值是否一致, 就是要检验各个总体的均值是否相等, 故要检验的假设为H0A: m1j=m2j=…=mrjj=1,…,s,H0B: mi1=mi2=…=misi=1,…,r.H1A: m1j,m2j,…,mrj不全相等.H1B: mi1,mi2,…,mis不全相等.

  23. 2.偏差平方和及其分解记

  24. 总偏差平方和: 因素A的偏差平方和: 因素B的偏差平方和: 误差平方和: 可证明ST=SA+SB+SE,

  25. 可证明当H0A,H0B成立时, 有(1) ST/s2, SA/s2, SB/s2, SE/s2分别服从自由度依次为rs-1, r-1, s-1, (r-1)(s-1)的c2分布.(2) SA,SB,SE相互独立.(3)

  26. 3. 检验方法对显著性水平a, H0A的拒绝域为FAFa(r-1,(r-1)(s-1));H0B的拒绝域为FBFa(s-1,(r-1)(s-1));

  27. 二, 等重复试验双因素方差分析设因素A,B作用于试验指标. 因素A有r个水平A1,A2,…,Ar, 因素B有s个水平B1,B2,…,Bs. 对因素A,B的每一个水平的一对组合(Ai,Bj), (i=1,2,…,r, j=1,2,…,s)只进行t(t2)次试验(称为等重复试验), 得到rst个试验结果Xijk (i=1,…,r; j=1,…,s; k=1,…,t).

  28. 假设各Xijk相互独立, 并有Xijk~N(mij,s2),经过一番分析, 可将mij分解表示为mij=m+ai+bj+gij (i=1,…,r; j=1,…,s),其中ai称为水平Ai的效应, bij称为水平Bj的效应, gij为水平Ai和水平Bj的交互效应.

  29. 要检验的假设为:H0A: a1=a2=…=ar=0.H1A: a1,a2,…,ar不全为零.H0B: b1=b2=…=bs=0.H1B: b1,b2,…,bs不全为零.H0AB: g11=g12=…=grs=0,H1AB: g11,g12,…,grs不全为零.

  30. 2. 偏差平方和及其分解引入记号:

  31. 称下列ST为总偏差平方和: 上式可分解为: ST=SE+SA+SB+SAB

  32. 其中

  33. 类似地, 可以证明当H0A,H0B, H0AB成立时, 有(1) ST/s2, SA/s2, SB/s2, SAB/s2,SE/s2分别服从自由度依次为rst-1, r-1, s-1, (r-1)(s-1), rs(t-1)的c2分布(2) SA,SB,SAB,SE相互独立.

  34. 3. 检验方法当H0A为真时, 取显著性水平为a, 得假设H0A的拒绝域为 FAFa(r-1,rs(t-1))

  35. 当H0B为真时, 取显著性水平为a, 得假设H0B的拒绝域为 FBFa(s-1,rs(t-1))

  36. 当H0AB为真时, 取显著性水平为a, 得假设H0AB的拒绝域为 FABFa((r-1)(s-1),rs(t-1))

  37. §8.3 一元线性回归

  38. 变量间的关系可分为确定性和非确定性的两类.例如, 人的身高和体重的关系, 人的血压和年龄的关系, 某产品的广告投入与销售额之间的关系, 是有关联的, 但它们之间的关系又不能用普通函数表示. 称这类非确定性关系为相关关系. 而近似地表示它们之间的相关关系的函数被称为回归函数.

  39. 最简单的情形是由两个变量组成的关系. 表示为Y=f(x)但是, 由于两个变量之间不存在确定的函数关系, 因此必须把随机波动考虑进去, 就有Y=f(x)+e其中Y是随机变量, x是普通变量, e是随机变量(称为随机误差).

  40. 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型, 并研究变量间的相关关系, 建立起变量之间关系的近似表达式, 即经验公式, 并由此对相应的变量进行预测和控制等.本节主要介绍一元线性回归模型的估计, 检验以及相应的预测和控制等问题.

  41. 一, 引例为了研究某一化学反应过程中温度x对产品得率Y的影响. 测得数据如下: 将xi作为横坐标, yi作为纵坐标, 在xOy坐标系中作出散点图

  42. 可见这些点大致散布在某一条直线附近, 即, 该化学反应过程中温度与产品得率之间大致成线性关系, 这些点与直线的偏离是由于测试过程中随机因素影响的结果, 故化学反应过程中产品得率与温度的数据可假设有如下的结构形式:yi=b0+b1xi+ei, i=1,2,…,10其中ei是测试误差, 它反映了变量之间的不确定关系.

  43. 二, 一元线性回归模型一般地, 当随机变量Y与普通变量x之间有线性关系时, 可设Y=b0+b1x+e, (3.3)e~N(0,s2), 其中b0,b1为待定系数.设(x1,Y1),(x2,Y2),…,(xn,Yn)是取自总体(x,Y)的一组样本, 而(x1,y1),(x2,y2),…,(xn,yn)是该样本的观察值.

More Related