330 likes | 416 Views
回归分析的基本概念. 一元回归模型的建立与检验. 一元回归模型的的预测. 概率论. 勤学好问必有所获. 第八章 随机变量(向量)的数字特征. 相关关系问题. 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:. ( 1 )确定性关系 —— 函数关系;. ( 2 )非确定性关系 —— 相关关系;. 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。. 类似的变量间的关系在大自然和社会中屡见不鲜.
E N D
回归分析的基本概念 一元回归模型的建立与检验 一元回归模型的的预测 概率论 勤学好问必有所获 第八章 随机变量(向量)的数字特征
相关关系问题 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种: (1)确定性关系——函数关系; (2)非确定性关系——相关关系; 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。
类似的变量间的关系在大自然和社会中屡见不鲜.类似的变量间的关系在大自然和社会中屡见不鲜. 例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.
因此,统计学上讨论两变量的相关关系时,是设法因此,统计学上讨论两变量的相关关系时,是设法 确定:在给定自变量 的条件下,因变量 的 条件数学期望 • 函数关系与相关关系的区别 函数关系—— 决定 的值, 相关关系—— 影响 的值,不能确定。
称为回归方程 回归方程反映了因变量 随自变量 的变化而变化 的平均变化情况. • 回归分析的概念 研究一个随机变量与一个(或几个)可控变量之间 的相关关系的统计方法称为回归分析。 引进回归函数 只有一个自变量的回归分析称为一元回归分析;多 于一个自变量的回归分析称为多元回归分析。
在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型. 它虽然比较简单, 但我们从中可以了解到回归分析的基本思想、方法和应用. 一元线性回归 一元线性回归 一元线性回归
让我们用一个例子来说明如何建立一元线性回归方程.让我们用一个例子来说明如何建立一元线性回归方程. 为了估计山上积雪融化后对下游灌溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:
年序 最大积雪深度x(米) 灌溉面积y(公顷) 1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 2493
y 4000 · · 3000 · · · · 2000 · · · · 1000 · o x 2 4 6 8 10 为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图. 从图看到, 数据点大致落在一条直线附近, 这告诉我们变量x和y之间大致可看作线性关系. 从图中还看到, 这些点又不完全在一条直线上, 这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.
事实上, 还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.
设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值:设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值: 称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图. 其中 ,且相互独立, • 一元线性回归模型 如果试验的散点图中各点呈直线状,则假设这批数 据的数学模型为 则
其中 相互独立, 同服从于正态分布 图 8-1 因此
其中 是与 无关的未知常数。 而 称为回归函数或回归方程。 称为回归系数。 • 一元线性回归模型 一般地,称如下数学模型为一元线性模型 (9.1)
由观测值 确定的回归函数 ,应使得 较小。 问题:确定 ,使得 取得极小值。 • 回归函数(方程)的建立 考虑函数 这是一个二元函数的无条件极值问题。
回归方程的建立 令
表示对 的估计值 则变量 对 的回归方程为 • 回归方程的建立 记 最小二乘法
对于任何一组数据 ,都可按最 小二乘法确定一个线性函数,但变量 与 之间是否真 有近似于线性函数的相关关系呢?尚需进行假设检验。 如果 成立,则不能认为 与 有线性相关关系。 • 回归方程有效性的检验 假设 三种检验方法:F检验法、t-检验法、r检验法。
经恒等变形,将 分解 • 回归方程有效性的F检验法 记 ——总离差平方和,反映观测值与平均值的偏差程度。
——回归平方和,反映回归值与平均值的偏差,揭示——回归平方和,反映回归值与平均值的偏差,揭示 变量 与 的线性关系所引起的数据波动。 ——剩余平方和,反映观测值与回归值的偏差,揭示 试验误差和非线性关系对试验结果所引起的数据波动。
如果 为真,则 对给定的检验水平 , (1)当 时,拒绝 ,即可认为变量 与 有线性相关关系; (2)当 时,接受 ,即可认为变量 与 没有线性相关关系; 于是,统计量
(1) 对 没有显著影响,应丢弃自变量 ; (2) 对 有显著影响,但这种影响不能用线性关系 表示,应作非线性回归; (3)除 之外,还有其它变量对 也有显著影响,从 而削弱了 对 的影响,应考虑多元回归。 (2)当 时,接受 ,即可认为变量 与 没有线性相关关系; 此时,可能有以下几种情况:
可反映变量 与 之间的线性相关程度。 • 回归方程有效性的r检验法 记 ——样本的相关系数 因为
因为 越大,变量 与 之间的线性相关程度越强。 (1) (2) 时, 与 有线性相关关系; 与 无线性相关关系; (3) 时, • 回归方程有效性的r检验法 记 ——样本的相关系数
对给定的检验水平 ,查相关系数的临界值表 如果 ,则拒绝 ,即线性回归方程有效; 否则,接受 ,即线性回归方程无效。 计算 F检验与r检验是一致的:
对给定的检验水平 ,H0的拒绝域为 即当 时,变量 与 有线性相关关系。 • 回归方程有效性的t检验法 统计量 H0成立时, F检验与t检验是一致的:
例1为了研究大豆脂肪含量 和蛋白质含量 的关系, 测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量, 得到如下数据 试求出 与 的关系,并判断是否有效。
由散点图,设变量 与 为线性相关关系: 确定回归系数 和 : (2)建立模型
所以回归方程在 的检验水平下有统计意义。 (3)检验回归方程的有效性 查相关系数临界值表 因为 即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。
时, 即为 的点预测值。 对给定的置信水平 , 的预测区间为 • 利用回归方程进行预测 1、点预测 2、区间预测 统计量
利用回归方程进行预测 续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。 解 由已求得的回归方程 得蛋白质的点预测值为 所以脂肪含量为18.6%时,蛋白质的95%的预测区间为
,确定自变量的取值区间 使得 一般地,要解出 和 很复杂,可作简化求解: • 利用回归方程进行控制 控制则为预测的反问题:已知因变量的取值区间为 当样本容量很大时, ,则