1 / 116

第一节 相关分析

第六章 相关分析与回归分析. 第一节 相关分析. 第二节 简单线性回归模型. 第三节 利用回归模型预测与控制. 第四节 多元线性回归模型. 1. 受教育的水平. 预防疾病支出. 工作后的收入. 疾病的发病率. 联系与相互影响是普遍的现象. 2. 事物相互间关系的质的解释:自然的、社会的、经济的、心理的 …. 事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析. 3. 第一节 相关分析. 相关分析.

beau-wooten
Download Presentation

第一节 相关分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六章 相关分析与回归分析 第一节 相关分析 第二节 简单线性回归模型 第三节 利用回归模型预测与控制 第四节 多元线性回归模型 湖南大学金融与统计学院 1

  2. 受教育的水平 预防疾病支出 工作后的收入 疾病的发病率 联系与相互影响是普遍的现象 湖南大学金融与统计学院 2

  3. 事物相互间关系的质的解释:自然的、社会的、经济的、心理的…事物相互间关系的质的解释:自然的、社会的、经济的、心理的… 事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析 湖南大学金融与统计学院 3

  4. 第一节 相关分析 相关分析 社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。 在分析变量的依存关系时,我们把变量分为两种: 自变量 引起其它变量发生变化的量。 因变量 受自变量的影响发生相应变化的量 湖南大学金融与统计学院 4

  5. 例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。 现象之间的相互关系,可以概括为两种不同的类型: (一)函数关系 (二)相关关系 湖南大学金融与统计学院 5

  6. 指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。 函数关系 函数关系可以用一个确定的公式,即函数式 或: 来表示。 湖南大学金融与统计学院 6

  7. 指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。 相关关系 例 根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系: 相关关系可用统计模型: 或: 式中,为影响 的除 外的其它随机因素。 湖南大学金融与统计学院 7

  8. 相关关系的种类: 也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。 复相关 1、按相关关系涉及变量的多少可分为: 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。 单相关 湖南大学金融与统计学院 8

  9. 当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。 当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关 。 直线相关 曲线相关 相关关系的种类: 2、按相关关系形式可分为: 湖南大学金融与统计学院 9

  10. 相关关系的种类: 当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。 当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。 正相关 负相关 3、按相关的方向可分为: 湖南大学金融与统计学院 10

  11. 线性正相关 湖南大学金融与统计学院 11

  12. 线性负相关 非线性相关 湖南大学金融与统计学院 12

  13. 无(不)相关 湖南大学金融与统计学院 13

  14. 相关关系的种类: 4、按相关关系的密切程度分为: 因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。 完全相关 变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。 不完全相关 自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。 完全不相关 湖南大学金融与统计学院 14

  15. 相关分析的主要内容包括: (1)确定现象之间有无相关关系,以及相关关系的表现形态。 (2)确定相关关系的密切程度。 湖南大学金融与统计学院 15

  16. 相关关系的测定 是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断 定性分析 在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度 定量分析 湖南大学金融与统计学院 16

  17. 相关关系的测定 其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。 相关系数 在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示 湖南大学金融与统计学院 17

  18. 相关系数r的取值范围:-1≤r≤1 r>0 为正相关,r < 0 为负相关; |r|=0 表示不存在线性关系; |r|=1 表示完全线性相关; 0<|r|<1表示存在不同程度线性相关: 0<|r|<0.4 为低度线性相关; 0.4≤ |r| <0.7为显著性线性相关; 0.7≤|r| <1.0为高度显著性线性相关。 湖南大学金融与统计学院 18

  19. 相关系数的计算 【例1】计算工业总产值与能源消耗量之间的相关系数 资料 结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。 湖南大学金融与统计学院 19

  20. 湖南大学金融与统计学院 20 资料

  21. ⒈提出假设: 正态总体相关系数的显著性检验 正态总体相关系数的检验(t检验法) 检验两正态总体两变量间线性相关性是否显著 目的 步 骤 ⒉构造检验统计量: 湖南大学金融与统计学院 21

  22. ⒊ 根据给定的显著性水平,确定临界值 ; 相关系数的显著性检验(t检验法) 步 骤 ⒋ 确定原假设的拒绝规则: 若 ,则接受H0 ,表示总体两变量间线性相关性不显著; 若 ,则拒绝H0 ,表示总体两变量间线性相关性显著 ⒌ 计算检验统计量并做出决策。 湖南大学金融与统计学院 22

  23. 湖南大学金融与统计学院 23

  24. 问题便是检验: 【例2】学生身高与体重的数据如 P23 ,已知学生身高与体重都服从正态分布,试在显著性水平0.05下检验学生身高与体重是否存在显著性线性相关关系。 解 由条件有 湖南大学金融与统计学院 24

  25. 选取统计量 在 成立的条件下, 查表得 检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为  明显地不等于零,相关关系是显著的。 湖南大学金融与统计学院 25

  26. 【例3】检验工业总产值与能源消耗量之间的线性相关性是否显著资料见P20【例3】检验工业总产值与能源消耗量之间的线性相关性是否显著资料见P20 当 成立时,则统计量 湖南大学金融与统计学院 26

  27. 使用相关系数时应注意的问题: • 相关关系不等于因果关系; • 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; • 极端值可能影响相关系数。 • 注意相关关系成立的数据范围。 • 警惕虚假相关 湖南大学金融与统计学院 27

  28. 第二节 简单线性回归模型 通过一个变量 或一些变量 的变化解释另一变量 的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量 ,揭示因变量 在数量上的平均变化和求得因变量的预测值的统计分析方法 回归分析 回归:退回regression 反映自变量和因变量之间数学联系的表达式。 回归方程 回归模型 某一类回归方程的总称。 湖南大学金融与统计学院 28

  29. Y X X 自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。 Y • • • • • • • • 湖南大学金融与统计学院 29

  30. 回归分析的内容和步骤 1、根据已有的理论和对问题的分析判断, 区分自变量和因变量; 2、设法找出适合的数学方程式(即 回归模型)描述变量间的关系 3、对回归模型进行统计检验; 4、统计检验通过后,利用回归模型,根据解释变量去估计,预测 因变量。 湖南大学金融与统计学院 30

  31. 回归分析的分类 根据变量的多少分为: 简单回归 只有一个自变量和一个因变量的回归 多元回归 自变量数目在两个或两个以上 根据建立的回归模型形式分为: 从所拟合的回归模型来看,一变量表现为其它变量的线性组合。 线性回归 从所拟合的回归模型来看,一变量表现为其它变量的非线性组合 非线性回归 湖南大学金融与统计学院 31

  32. 回归分析与相关分析 联系: • 理论和方法具有一致性; • 无相关就无回归,相关程度越高,回归越好; • 相关系数和回归系数方向一致,可以互相推算。 湖南大学金融与统计学院 32

  33. 回归分析与相关分析 区别: • 相关分析中x与y对等,回归分析中x与y要确定自变量和因变量; • 相关分析中x、y均为随机变量,回归分析中只有y为随机变量; • 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。 湖南大学金融与统计学院 33

  34. 总体简单线性回归模型 指根据成对的两个变量的数值,配合直线方程式,自变量的变动,来推算因变量变动趋势的方法,其模型的样本形式为: 总体回归模型 其中: 表示因变量 在总体中某一个具体的观察值; 表示在研究总体中自变量 的具体观察数值; 与 是参数,称为回归系数; 是一个随机变量,其平均数为0,方差为 . 34 湖南大学金融与统计学院

  35. 模型参数 总体一元线性回归模型:(总体形式) 假定: E()=0 误差项 总体一元线性回归方程:(总体形式) 湖南大学金融与统计学院 35

  36. 模型参数 总体一元线性回归模型:(样本形式) 假定: E()=0 误差项 总体一元线性回归方程:(样本形式) 湖南大学金融与统计学院 36

  37. 简单线性回归模型的假设 当确定某一个 时,相应的 就有许多 值与之对应。 是一个随机变量,这些 构成一个在 取值为 条件下的条件分布、并假设其服从正态分布。 1、正态性假定 假定所有 这一条件分布的方差是相等的。 2、同方差假定 假定所有 这一条件分布的平均数位于一条直线上,这条直线为 3、线性假定 假定 之间是独立的,也就是说抽样时, 的值在每取一个 值的条件分布相互独立。 4、独立性假定 湖南大学金融与统计学院 37

  38. 一元线性回归模型的假定 湖南大学金融与统计学院 38

  39. 样本简单线性回归模型 在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为: 样本回归模型 其中:a,b和 分别为 及 的估计量。 由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数 。 湖南大学金融与统计学院 39

  40. 回归直线的拟合 截距 斜率 一元线性回归方程的可能形态 b为正 b为负 b为0 一元线性回归方程的几何意义 湖南大学金融与统计学院 40

  41. (估计的回归方程) 样本一元线性回归方程: 截距 总体一元线性 回归方程: 以样本统计量估计总体参数 斜率(回归系数) 截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。 湖南大学金融与统计学院 41

  42. 随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响 X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。 湖南大学金融与统计学院 42

  43. 残差(Residual):e 湖南大学金融与统计学院 43

  44. 一元线性回归方程 中参数a、b的确定: 最小二乘法 基本要求: 湖南大学金融与统计学院 44

  45. 整理得到由两个关于a、b的二元一次方程组成的方程组:整理得到由两个关于a、b的二元一次方程组成的方程组: 进一步整理,有: 湖南大学金融与统计学院 45

  46. 湖南大学金融与统计学院 46

  47. 例4为了测量某一年龄段学生体重与身高的关系,现随机地从该年龄段的学生中随机地抽出10个学生进行测量,测的结果如前表,试问,这一年龄段中的学生体重与身高的线性相关关系如何?例4为了测量某一年龄段学生体重与身高的关系,现随机地从该年龄段的学生中随机地抽出10个学生进行测量,测的结果如前表,试问,这一年龄段中的学生体重与身高的线性相关关系如何? 解 由例2可知,学生体重与身高具有高度显著性线性相关关系。设关系方程为 ,且由题设可知: 故 因此,该年龄段学生体重与身高的线性关系为 湖南大学金融与统计学院 47

  48. 【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。 解:设线性回归方程为 【例5】建立工业总产值对能源消耗量的线性回归方程 资料 湖南大学金融与统计学院 48

  49. 即线性回归方程为: 计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。 湖南大学金融与统计学院 49

  50. 最小二乘法估计的优良性质 • 残差之和为零 • 所拟合直线通过样本散点图的重心 • 误差项与解释变量不相关 • a与b分别是总体回归系数的无偏估计量 • a与b均为服从正态分布的随机变量 湖南大学金融与统计学院 50

More Related