1 / 33

勤学好问必有所获

回归分析的基本概念. 一元回归模型的建立与检验. 一元回归模型的的预测. 概率论. 勤学好问必有所获. 第八章 随机变量(向量)的数字特征. 相关关系问题. 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:. ( 1 )确定性关系 —— 函数关系;. ( 2 )非确定性关系 —— 相关关系;. 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。. 类似的变量间的关系在大自然和社会中屡见不鲜.

Download Presentation

勤学好问必有所获

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 回归分析的基本概念 一元回归模型的建立与检验 一元回归模型的的预测 概率论 勤学好问必有所获 第八章 随机变量(向量)的数字特征

  2. 相关关系问题 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种: (1)确定性关系——函数关系; (2)非确定性关系——相关关系; 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。

  3. 类似的变量间的关系在大自然和社会中屡见不鲜.类似的变量间的关系在大自然和社会中屡见不鲜. 例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.

  4. 因此,统计学上讨论两变量的相关关系时,是设法因此,统计学上讨论两变量的相关关系时,是设法 确定:在给定自变量 的条件下,因变量 的 条件数学期望 • 函数关系与相关关系的区别 函数关系—— 决定 的值, 相关关系—— 影响 的值,不能确定。

  5. 称为回归方程 回归方程反映了因变量 随自变量 的变化而变化 的平均变化情况. • 回归分析的概念 研究一个随机变量与一个(或几个)可控变量之间 的相关关系的统计方法称为回归分析。 引进回归函数 只有一个自变量的回归分析称为一元回归分析;多 于一个自变量的回归分析称为多元回归分析。

  6. 在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型. 它虽然比较简单, 但我们从中可以了解到回归分析的基本思想、方法和应用. 一元线性回归 一元线性回归 一元线性回归

  7. 让我们用一个例子来说明如何建立一元线性回归方程.让我们用一个例子来说明如何建立一元线性回归方程. 为了估计山上积雪融化后对下游灌溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:

  8. 年序 最大积雪深度x(米) 灌溉面积y(公顷) 1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 2493

  9. y 4000 · · 3000 · · · · 2000 · · · · 1000 · o x 2 4 6 8 10 为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图. 从图看到, 数据点大致落在一条直线附近, 这告诉我们变量x和y之间大致可看作线性关系. 从图中还看到, 这些点又不完全在一条直线上, 这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.

  10. 事实上, 还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.

  11. 设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值:设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值: 称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图. 其中 ,且相互独立, • 一元线性回归模型 如果试验的散点图中各点呈直线状,则假设这批数 据的数学模型为 则

  12. 其中 相互独立, 同服从于正态分布 图 8-1 因此

  13. 其中 是与 无关的未知常数。 而 称为回归函数或回归方程。 称为回归系数。 • 一元线性回归模型 一般地,称如下数学模型为一元线性模型 (9.1)

  14. 由观测值 确定的回归函数 ,应使得 较小。 问题:确定 ,使得 取得极小值。 • 回归函数(方程)的建立 考虑函数 这是一个二元函数的无条件极值问题。

  15. 回归方程的建立

  16. 表示对 的估计值 则变量 对 的回归方程为 • 回归方程的建立 记 最小二乘法

  17. 对于任何一组数据 ,都可按最 小二乘法确定一个线性函数,但变量 与 之间是否真 有近似于线性函数的相关关系呢?尚需进行假设检验。 如果 成立,则不能认为 与 有线性相关关系。 • 回归方程有效性的检验 假设 三种检验方法:F检验法、t-检验法、r检验法。

  18. 经恒等变形,将 分解 • 回归方程有效性的F检验法 记 ——总离差平方和,反映观测值与平均值的偏差程度。

  19. ——回归平方和,反映回归值与平均值的偏差,揭示——回归平方和,反映回归值与平均值的偏差,揭示 变量 与 的线性关系所引起的数据波动。 ——剩余平方和,反映观测值与回归值的偏差,揭示 试验误差和非线性关系对试验结果所引起的数据波动。

  20. 如果 为真,则 对给定的检验水平 , (1)当 时,拒绝 ,即可认为变量 与 有线性相关关系; (2)当 时,接受 ,即可认为变量 与 没有线性相关关系; 于是,统计量

  21. (1) 对 没有显著影响,应丢弃自变量 ; (2) 对 有显著影响,但这种影响不能用线性关系 表示,应作非线性回归; (3)除 之外,还有其它变量对 也有显著影响,从 而削弱了 对 的影响,应考虑多元回归。 (2)当 时,接受 ,即可认为变量 与 没有线性相关关系; 此时,可能有以下几种情况:

  22. 可反映变量 与 之间的线性相关程度。 • 回归方程有效性的r检验法 记 ——样本的相关系数 因为

  23. 因为 越大,变量 与 之间的线性相关程度越强。 (1) (2) 时, 与 有线性相关关系; 与 无线性相关关系; (3) 时, • 回归方程有效性的r检验法 记 ——样本的相关系数

  24. 对给定的检验水平 ,查相关系数的临界值表 如果 ,则拒绝 ,即线性回归方程有效; 否则,接受 ,即线性回归方程无效。 计算 F检验与r检验是一致的:

  25. 对给定的检验水平 ,H0的拒绝域为 即当 时,变量 与 有线性相关关系。 • 回归方程有效性的t检验法 统计量 H0成立时, F检验与t检验是一致的:

  26. 例1为了研究大豆脂肪含量 和蛋白质含量 的关系, 测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量, 得到如下数据 试求出 与 的关系,并判断是否有效。

  27. 解 (1)描散点图

  28. 由散点图,设变量 与 为线性相关关系: 确定回归系数 和 : (2)建立模型

  29. 所以,所求的回归方程为

  30. 所以回归方程在 的检验水平下有统计意义。 (3)检验回归方程的有效性 查相关系数临界值表 因为 即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。

  31. 时, 即为 的点预测值。 对给定的置信水平 , 的预测区间为 • 利用回归方程进行预测 1、点预测 2、区间预测 统计量

  32. 利用回归方程进行预测 续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。 解 由已求得的回归方程 得蛋白质的点预测值为 所以脂肪含量为18.6%时,蛋白质的95%的预测区间为

  33. ,确定自变量的取值区间 使得 一般地,要解出 和 很复杂,可作简化求解: • 利用回归方程进行控制 控制则为预测的反问题:已知因变量的取值区间为 当样本容量很大时, ,则

More Related