1.16k likes | 1.27k Views
第六章 相关分析与回归分析. 第一节 相关分析. 第二节 简单线性回归模型. 第三节 利用回归模型预测与控制. 第四节 多元线性回归模型. 1. 受教育的水平. 预防疾病支出. 工作后的收入. 疾病的发病率. 联系与相互影响是普遍的现象. 2. 事物相互间关系的质的解释:自然的、社会的、经济的、心理的 …. 事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析. 3. 第一节 相关分析. 相关分析.
E N D
第六章 相关分析与回归分析 第一节 相关分析 第二节 简单线性回归模型 第三节 利用回归模型预测与控制 第四节 多元线性回归模型 湖南大学金融与统计学院 1
受教育的水平 预防疾病支出 工作后的收入 疾病的发病率 联系与相互影响是普遍的现象 湖南大学金融与统计学院 2
事物相互间关系的质的解释:自然的、社会的、经济的、心理的…事物相互间关系的质的解释:自然的、社会的、经济的、心理的… 事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析 湖南大学金融与统计学院 3
第一节 相关分析 相关分析 社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。 在分析变量的依存关系时,我们把变量分为两种: 自变量 引起其它变量发生变化的量。 因变量 受自变量的影响发生相应变化的量 湖南大学金融与统计学院 4
例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。 现象之间的相互关系,可以概括为两种不同的类型: (一)函数关系 (二)相关关系 湖南大学金融与统计学院 5
指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。 函数关系 函数关系可以用一个确定的公式,即函数式 或: 来表示。 湖南大学金融与统计学院 6
指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。 相关关系 例 根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系: 相关关系可用统计模型: 或: 式中,为影响 的除 外的其它随机因素。 湖南大学金融与统计学院 7
相关关系的种类: 也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。 复相关 1、按相关关系涉及变量的多少可分为: 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。 单相关 湖南大学金融与统计学院 8
当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。 当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关 。 直线相关 曲线相关 相关关系的种类: 2、按相关关系形式可分为: 湖南大学金融与统计学院 9
相关关系的种类: 当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。 当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。 正相关 负相关 3、按相关的方向可分为: 湖南大学金融与统计学院 10
线性正相关 湖南大学金融与统计学院 11
线性负相关 非线性相关 湖南大学金融与统计学院 12
无(不)相关 湖南大学金融与统计学院 13
相关关系的种类: 4、按相关关系的密切程度分为: 因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。 完全相关 变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。 不完全相关 自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。 完全不相关 湖南大学金融与统计学院 14
相关分析的主要内容包括: (1)确定现象之间有无相关关系,以及相关关系的表现形态。 (2)确定相关关系的密切程度。 湖南大学金融与统计学院 15
相关关系的测定 是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断 定性分析 在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度 定量分析 湖南大学金融与统计学院 16
相关关系的测定 其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。 相关系数 在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示 湖南大学金融与统计学院 17
相关系数r的取值范围:-1≤r≤1 r>0 为正相关,r < 0 为负相关; |r|=0 表示不存在线性关系; |r|=1 表示完全线性相关; 0<|r|<1表示存在不同程度线性相关: 0<|r|<0.4 为低度线性相关; 0.4≤ |r| <0.7为显著性线性相关; 0.7≤|r| <1.0为高度显著性线性相关。 湖南大学金融与统计学院 18
相关系数的计算 【例1】计算工业总产值与能源消耗量之间的相关系数 资料 结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。 湖南大学金融与统计学院 19
湖南大学金融与统计学院 20 资料
⒈提出假设: 正态总体相关系数的显著性检验 正态总体相关系数的检验(t检验法) 检验两正态总体两变量间线性相关性是否显著 目的 步 骤 ⒉构造检验统计量: 湖南大学金融与统计学院 21
⒊ 根据给定的显著性水平,确定临界值 ; 相关系数的显著性检验(t检验法) 步 骤 ⒋ 确定原假设的拒绝规则: 若 ,则接受H0 ,表示总体两变量间线性相关性不显著; 若 ,则拒绝H0 ,表示总体两变量间线性相关性显著 ⒌ 计算检验统计量并做出决策。 湖南大学金融与统计学院 22
湖南大学金融与统计学院 23
问题便是检验: 【例2】学生身高与体重的数据如 P23 ,已知学生身高与体重都服从正态分布,试在显著性水平0.05下检验学生身高与体重是否存在显著性线性相关关系。 解 由条件有 湖南大学金融与统计学院 24
选取统计量 在 成立的条件下, 查表得 检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为 明显地不等于零,相关关系是显著的。 湖南大学金融与统计学院 25
【例3】检验工业总产值与能源消耗量之间的线性相关性是否显著资料见P20【例3】检验工业总产值与能源消耗量之间的线性相关性是否显著资料见P20 当 成立时,则统计量 湖南大学金融与统计学院 26
使用相关系数时应注意的问题: • 相关关系不等于因果关系; • 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; • 极端值可能影响相关系数。 • 注意相关关系成立的数据范围。 • 警惕虚假相关 湖南大学金融与统计学院 27
第二节 简单线性回归模型 通过一个变量 或一些变量 的变化解释另一变量 的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量 ,揭示因变量 在数量上的平均变化和求得因变量的预测值的统计分析方法 回归分析 回归:退回regression 反映自变量和因变量之间数学联系的表达式。 回归方程 回归模型 某一类回归方程的总称。 湖南大学金融与统计学院 28
Y X X 自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。 Y • • • • • • • • 湖南大学金融与统计学院 29
回归分析的内容和步骤 1、根据已有的理论和对问题的分析判断, 区分自变量和因变量; 2、设法找出适合的数学方程式(即 回归模型)描述变量间的关系 3、对回归模型进行统计检验; 4、统计检验通过后,利用回归模型,根据解释变量去估计,预测 因变量。 湖南大学金融与统计学院 30
回归分析的分类 根据变量的多少分为: 简单回归 只有一个自变量和一个因变量的回归 多元回归 自变量数目在两个或两个以上 根据建立的回归模型形式分为: 从所拟合的回归模型来看,一变量表现为其它变量的线性组合。 线性回归 从所拟合的回归模型来看,一变量表现为其它变量的非线性组合 非线性回归 湖南大学金融与统计学院 31
回归分析与相关分析 联系: • 理论和方法具有一致性; • 无相关就无回归,相关程度越高,回归越好; • 相关系数和回归系数方向一致,可以互相推算。 湖南大学金融与统计学院 32
回归分析与相关分析 区别: • 相关分析中x与y对等,回归分析中x与y要确定自变量和因变量; • 相关分析中x、y均为随机变量,回归分析中只有y为随机变量; • 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。 湖南大学金融与统计学院 33
总体简单线性回归模型 指根据成对的两个变量的数值,配合直线方程式,自变量的变动,来推算因变量变动趋势的方法,其模型的样本形式为: 总体回归模型 其中: 表示因变量 在总体中某一个具体的观察值; 表示在研究总体中自变量 的具体观察数值; 与 是参数,称为回归系数; 是一个随机变量,其平均数为0,方差为 . 34 湖南大学金融与统计学院
模型参数 总体一元线性回归模型:(总体形式) 假定: E()=0 误差项 总体一元线性回归方程:(总体形式) 湖南大学金融与统计学院 35
模型参数 总体一元线性回归模型:(样本形式) 假定: E()=0 误差项 总体一元线性回归方程:(样本形式) 湖南大学金融与统计学院 36
简单线性回归模型的假设 当确定某一个 时,相应的 就有许多 值与之对应。 是一个随机变量,这些 构成一个在 取值为 条件下的条件分布、并假设其服从正态分布。 1、正态性假定 假定所有 这一条件分布的方差是相等的。 2、同方差假定 假定所有 这一条件分布的平均数位于一条直线上,这条直线为 3、线性假定 假定 之间是独立的,也就是说抽样时, 的值在每取一个 值的条件分布相互独立。 4、独立性假定 湖南大学金融与统计学院 37
一元线性回归模型的假定 湖南大学金融与统计学院 38
样本简单线性回归模型 在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为: 样本回归模型 其中:a,b和 分别为 及 的估计量。 由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数 。 湖南大学金融与统计学院 39
回归直线的拟合 截距 斜率 一元线性回归方程的可能形态 b为正 b为负 b为0 一元线性回归方程的几何意义 湖南大学金融与统计学院 40
(估计的回归方程) 样本一元线性回归方程: 截距 总体一元线性 回归方程: 以样本统计量估计总体参数 斜率(回归系数) 截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。 湖南大学金融与统计学院 41
随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响 X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。 湖南大学金融与统计学院 42
残差(Residual):e 湖南大学金融与统计学院 43
一元线性回归方程 中参数a、b的确定: 最小二乘法 基本要求: 湖南大学金融与统计学院 44
整理得到由两个关于a、b的二元一次方程组成的方程组:整理得到由两个关于a、b的二元一次方程组成的方程组: 进一步整理,有: 湖南大学金融与统计学院 45
湖南大学金融与统计学院 46
例4为了测量某一年龄段学生体重与身高的关系,现随机地从该年龄段的学生中随机地抽出10个学生进行测量,测的结果如前表,试问,这一年龄段中的学生体重与身高的线性相关关系如何?例4为了测量某一年龄段学生体重与身高的关系,现随机地从该年龄段的学生中随机地抽出10个学生进行测量,测的结果如前表,试问,这一年龄段中的学生体重与身高的线性相关关系如何? 解 由例2可知,学生体重与身高具有高度显著性线性相关关系。设关系方程为 ,且由题设可知: 故 因此,该年龄段学生体重与身高的线性关系为 湖南大学金融与统计学院 47
【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。 解:设线性回归方程为 【例5】建立工业总产值对能源消耗量的线性回归方程 资料 湖南大学金融与统计学院 48
即线性回归方程为: 计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。 湖南大学金融与统计学院 49
最小二乘法估计的优良性质 • 残差之和为零 • 所拟合直线通过样本散点图的重心 • 误差项与解释变量不相关 • a与b分别是总体回归系数的无偏估计量 • a与b均为服从正态分布的随机变量 湖南大学金融与统计学院 50