300 likes | 424 Views
回归分析的基本思想及其初步应用. 刘建忠 2010 年 7 月. 1. 2. 3. 选修 2-3 回归部分增加的内容. 回归分析知识结构图. 回归分析教学内容分析. 回归分析的基本思想及其初步应用. www.sxpyzx.com ljzh.2001@163.com. 选修 2-3 回归部分增加的内容. 必修 3 已学回归内容: 1. 画散点图; 2. 最小二乘法的思想; 3. 求回归直线方程 y=bx+a; 4. 用回归直线方程解决应用问题。.
E N D
回归分析的基本思想及其初步应用 刘建忠 2010年7月
1 2 3 选修2-3回归部分增加的内容 回归分析知识结构图 回归分析教学内容分析 回归分析的基本思想及其初步应用 www.sxpyzx.comljzh.2001@163.com
选修2-3回归部分增加的内容 必修3已学回归内容: 1.画散点图; 2.最小二乘法的思想; 3.求回归直线方程y=bx+a; 4. 用回归直线方程解决应用问题。 选修2-3中增加内容:1.引入线性回归模型y=bx+a+e. 2.了解模型中随机误差e产生的原因。 3.了解相关指数R2和模型拟合效果之间的关系。 4.了解残差图的作用。 5.利用线性回归模型解决一类非线性回归模型。 6.正确理解统计分析方法与分析结果。 www.sxpyzx.comljzh.2001@163.com
问题背景分析 散点图 两个变量线性相关 两个变量非线性相关 最小二乘法 线性回归模型 非线性回归模型 残差分析 相关指数 应用 注:虚线表示高中阶段不涉及的关系 回归分析知识结构图 www.sxpyzx.comljzh.2001@163.com
回归分析教学内容分析 一、教学任务分析 1、利用残差和R2探讨回归模型拟合的效果,让学生理解在统 计中回归诊断的重要性,只有拟合效果好的模型才能利用回归 模型预报。 2、通过例1归纳出建立回归模型的基本步骤,并归纳出利用回 归模型预报体重时应该注意的适用性。 3、通过例2让学生体会如何借助线性回归模型研究具有非线性关 系的两个变量。 4、寻求近似效果好的模型及寻求最有效的数据处理方法是人们 不断追求的目标。 www.sxpyzx.comljzh.2001@163.com
回归分析教学内容分析 二、教学重点 1、函数模型与“回归模型”的关系;散点图与模型的选择。 2、建立回归模型的步骤,特别强调回归诊断中如何利用残差和相关指数R2 3、注意提炼案例所蕴含的统计思想。应用统计方法解决实际问题需要注意的问题。 三、教学难点 借助函数变换把非线性相关关系转化为线性相关关系,例2中所 建立的两个模型:一个是把预报变量对数化,一个是把解释变量 平方化。 www.sxpyzx.comljzh.2001@163.com
四、教学情境设计 问题一:结合例1得出线性回归模型及随机误差。并且区分函数 模型和回归模型。 问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢? 问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? 问题四:结合例1思考:用回归方程预报体重时应注意什么? 问题五:归纳建立回归模型的基本步骤。 问题六:若两个变量呈现非线性关系,如何解决?(分析例2) www.sxpyzx.comljzh.2001@163.com
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。 编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。 解:1、选取身高为自变量x,体重为因变量y,作散点图: 问题一:结合例1得出线性回归模型及随机误差。并且区分函数 模型和回归模型。 www.sxpyzx.comljzh.2001@163.com
2.回归方程: 探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗? 答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的值。 问题一:结合例1得出线性回归模型及随机误差。并且区分函数 模型和回归模型。 www.sxpyzx.comljzh.2001@163.com
y=bx+a+e, 由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用线性回归模型来表示: 其中a和b为模型的未知参数,e称为随机误差. E(e)=0,D(e)= 注:1、随机误差e包含预报体重不能由身高的线性函数解释的所有部分。 2、E(e)=0可用回归方程必过样本点中心 解释。 问题一:结合例1得出线性回归模型及随机误差。并且区分函数 模型和回归模型。 www.sxpyzx.comljzh.2001@163.com
函数模型: 样本点在函数曲线上 样本点不在回归函数曲线上 回归模型: 问题一:结合例1得出线性回归模型及随机误差。并且区分函数 模型和回归模型。 函数模型与“回归模型”的关系 11 www.sxpyzx.comljzh.2001@163.com
问题一:结合例1得出线性回归模型及随机误差。并且区分函数问题一:结合例1得出线性回归模型及随机误差。并且区分函数 模型和回归模型。 函数模型与“回归模型”的关系 函数模型:因变量y完全由自变量x确定 回归模型: 预报变量y完全由解释变量x和随机误差e确定 www.sxpyzx.comljzh.2001@163.com
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念。结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念。 问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢? www.sxpyzx.comljzh.2001@163.com
问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? (1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。 www.sxpyzx.comljzh.2001@163.com
问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? 残差图的制作和作用: 制作:坐标纵轴为残差变量,横轴可以有不同的选择. 横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误. 横轴为解释变量:可以考察残差与解释变量的关系,常用于研究模型是否有改进的余地. 作用:判断模型的适用性若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域. www.sxpyzx.comljzh.2001@163.com
问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? 下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。 www.sxpyzx.com ljzh.2001@163.com
身高与体重残差图 异常点 • 错误数据 • 模型问题 • 残差图的制作及作用。 • 坐标纵轴为残差变量,横轴可以有不同的选择; • 若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域; • 对于远离横轴的点,要特别注意。 几点说明: 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
(2)我们可以用相关指数R2来刻画回归的效果,其计算公式是(2)我们可以用相关指数R2来刻画回归的效果,其计算公式是 显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。 在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。 R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R2较大的模型作为这组数据的模型。 问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? 注:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表 自变量刻画预报变量的能力。 www.sxpyzx.comljzh.2001@163.com
来源 平方和 比例 随机误差 225.639 0.64 残差变量 128.361 0.36 总计 354 1 从上中可以看出,解析变量对总效应约贡献了64%,即 R2 0.64,可以叙述为“身高解析了64%的体重变化”,而随机误 差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。 问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? 下面我们用相关指数分析一下例1: www.sxpyzx.comljzh.2001@163.com
问题四:结合例1思考:用回归方程预报体重时应注意什么?问题四:结合例1思考:用回归方程预报体重时应注意什么? 用身高预报体重时应注意的问题: 1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。 涉及到统计的一些思想: 模型适用的总体;模型的时间性; 样本的取值范围对模型的影响;模型预报结果的正确理解。 www.sxpyzx.comljzh.2001@163.com
问题五:归纳建立回归模型的基本步骤。 一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。 (2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a). (4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。 www.sxpyzx.comljzh.2001@163.com
温度xoC 21 23 25 27 29 32 35 产卵数y/个 7 11 21 24 66 115 325 问题六:若两个变量呈现非线性关系,如何解决?(分析例2) 例2一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中: (1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。 (2)你所建立的模型中温度在多大程度上解释了产卵数的变化? www.sxpyzx.comljzh.2001@163.com
解:选取气温为解释变量x,产卵数 为预报变量y。 选变量 350 300 250 200 画散点图 150 100 50 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39 选 模 型 估计参数 假设线性回归方程为 :ŷ=bx+a 由计算器得:线性回归方程为y=19.87x-463.73 相关指数R2=r2≈0.8642=0.7464 分析和预测 当x=28时,y =19.87×28-463.73≈ 93 当x=28时,y =19.87×28-463.73≈ 93 所以,一次函数模型中温度解释了74.64%的产卵数变化。 问题六:若两个变量呈现非线性关系,如何解决?(分析例2) 方法一:一元函数模型 www.sxpyzx.comljzh.2001@163.com
问题1 问题2 方法二,二元函数模型 选用y=c1x2+c2,还是y=c1x2+cx+c2? 如何求c1、c2? 产卵数 问题3 y= c1x2+c2变换 y= c1t+c2 非线性关系 线性关系 t=x2 气温 问题六:若两个变量呈现非线性关系,如何解决?(分析例2) www.sxpyzx.comljzh.2001@163.com
温度 21 23 25 27 29 32 35 温度的平方t 441 529 625 729 841 1024 1225 产卵数y/个 7 11 21 24 66 115 325 平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a 作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802 将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367×282-202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。 t 问题六:若两个变量呈现非线性关系,如何解决?(分析例2) www.sxpyzx.comljzh.2001@163.com
问题六:若两个变量呈现非线性关系,如何解决?(分析例2)问题六:若两个变量呈现非线性关系,如何解决?(分析例2) 产卵数 方法三:指数函数模型 气温 变换 y=bx+a 非线性关系 线性关系 对数 www.sxpyzx.comljzh.2001@163.com
温度xoC 21 23 25 27 29 32 35 z=lgy 0.85 1.04 1.32 1.38 1.82 2.06 2.51 对数变换:在 中两边取自然对数得 产卵数y/个 7 11 21 24 66 115 325 令 ,则 就转换为z=bx+a z 由计算器得:z关于x的线性回归方程 为z=0.272x-3.849 , 相关指数R2=r2≈0.99252=0.98 x 当x=28oC 时,y ≈44 ,指数回归模型中温度解释了98%的产卵数的变化 问题六:若两个变量呈现非线性关系,如何解决?(分析例2) www.sxpyzx.comljzh.2001@163.com
问题六:若两个变量呈现非线性关系,如何解决?(分析例2)问题六:若两个变量呈现非线性关系,如何解决?(分析例2) 最好的模型是哪个? 显然,指数函数模型最好! www.sxpyzx.comljzh.2001@163.com
课堂知识延伸 我们知道,刑警如果能在案发现场提取到罪犯的脚印,即将获得一条重要的破 案线索,其原因之一是人类的脚掌长度和身高存在着相关关系,可以根据一个人的 脚掌长度来来预测他的身高…… 我们还知道,在统计史上,很早就有人收集过人们的身高、前臂长度等数据, 试图寻找这些数据之间的规律…… 在上述两个小故事的启发下,全班同学请分成一些小组,每组4-6名同学,在老 师的指导下,开展一次数学建模活动,来亲自体验回归分析的思想方法,提高自己的 实践能力。 数学建模的题目是:收集一些周围人们的脚掌长度、前臂长度中的一个数据及其 身高,来作为两个变量画散点图,如果这两个变量之间具有线性相关关系,就求出回 归直线方程,另选一个人的这两个变量的数据,作一次预测,并分析预测结果。 最后以小组写出数学建模报告,报告要求过程清晰,结论明确,有关数学论述准 确,以下两个问题需要注意: (1)如果脚掌长度不方便,可改量脚印的长度。 (2)数据尽量取得分散一些。 www.sxpyzx.comljzh.2001@163.com
回归分析的基本思想及其初步应用 探索无止境 探索无止境 探索无止境 探索无止境 谢 谢 批 评 指 正!