980 likes | 1.07k Views
学习模块九 相关与回归分析. 开篇导读. 某企业生产成本的管理与预测 以下案例是某企业在生产经营活动中,其管理人员根据企业经营情况的数据资料,建立月产量与生产成本之间的一元线性回归模型,并在此基础上对其进行分析和预测的例子。现实生活中的许多变量之间的数量关系也都可以采取类似的方法来处理和研究。 为了加强企业内部管理、提高经济效益,珠海市某企业决定从 2009 年开始逐步规范会计管理。企业的财务部的林经理找到负责企业成本核算的会计小张,要求他对企业的经营成本进行分析。于是,小张收集了改企业 2008 年的相关经营数据资料,如下表所示。.
E N D
开篇导读 • 某企业生产成本的管理与预测 • 以下案例是某企业在生产经营活动中,其管理人员根据企业经营情况的数据资料,建立月产量与生产成本之间的一元线性回归模型,并在此基础上对其进行分析和预测的例子。现实生活中的许多变量之间的数量关系也都可以采取类似的方法来处理和研究。 • 为了加强企业内部管理、提高经济效益,珠海市某企业决定从2009年开始逐步规范会计管理。企业的财务部的林经理找到负责企业成本核算的会计小张,要求他对企业的经营成本进行分析。于是,小张收集了改企业2008年的相关经营数据资料,如下表所示。
附表:某企业2009年度的月产量与生产成本数据附表:某企业2009年度的月产量与生产成本数据
通过简单的分析,小张发现,企业的生产成本与产量之间存在着高度的线性相关关系,进一步计算两者的相关系数得到。在此基础上,小张以产量为解释变量、生产成本的被解释变量建立了一元线性回归模型,经参数估计得到如下方程:通过简单的分析,小张发现,企业的生产成本与产量之间存在着高度的线性相关关系,进一步计算两者的相关系数得到。在此基础上,小张以产量为解释变量、生产成本的被解释变量建立了一元线性回归模型,经参数估计得到如下方程: • 在以上的例子中,小张是怎样判断产量与生产成本之间存在线性相关的,相关系数是如何计算出来的,一元线性模型如何建立,其参数是如何估计出来的等等这类问题,都是本学习模块需要解决的问题,通过本模块的学习,你也可以像案例中的小张一样,非常方便的对变量之间的数量关系进行研究。
知识目标 • 通过本模块知识的学习,主要掌握以下一些基本知识点: • 1、了解相关分析的概念、种类、及其内容,领会相关关系与函数关系的区别; • 2、掌握三种测定相关关系的方法,即:相关表、相关图与相关系数。尤其是掌握相关的计算及其检验,能根据计算所得相关系数绝对值的大小判断相关关系的紧密程度; • 3、了解回归分析的概念、种类及其与相关分析的区别,掌握一元线性回归模型的建立及其参数估计; • 4、了解多元线性回归模型。
能力目标 • 通过本学习模块的学习,主要能掌握以下几项基本技能: • 1、根据已给数据,能通过编制相关表、绘制相关图或计算相关系数等方法,判断变量之间相关关系的方向、形式以及紧密程度; • 2、能对具有线性关系的两个变量进行一元线性回归,并估计其参数。
任务一 判断相关关系的形式、方向与紧密程度 • 【任务导入】 • 为了对物业服务企业的年均资金投入与利润总额之间是否存在相关性进行判断和研究,某咨询机构抽样调查了某地10家代表性的物业服务企业,他们的年平均资金投入与利润总额的数据如下表9-1-1所示:
表9-1-1 物业服务企业年均资金投入与利润总额数据
试回答以下问题: • (1)判断年平均资金投入与利润总额之间是否存在相关关系,如存在,是何种相关关系? • (2)测定并检验两者之间的相关系数(α=0.05)
【任务分析】 • 要完成以上学习任务,学生赢掌握以下主要知识点: • (1)所谓相关关系,是指诸变量之间存在的、非确定性的数量关系,它不是一种严格的函数关系。依据不同的标准,相关分析可以分为不同的类型,本任务所要分析的是单相关。测定相关关系的方法主要包括编制相关表、绘制相关图以及计算相关系数法。相关表和相关图都只能粗略的判断相关关系的存在及其方向;只有通过计算相关系数才能精确判断相关关系的方向及其紧密程度。 • (2)由相关系数的计算公式可以看出,其大小受到样本容量以及样本的代表性这两个因素的影响。在实践中,我们往往需要检验样本相关系数是否能够代表总体相关系数。在假设变量均值服从正态分布的前提下,我们可以通过值检验来相关系数的显著性。
【相关知识链接】 • 在实际的运用中,作为统计学中研究变量之间数量关系的分析工具,函数关系与相关关系两者之间既存在联系,也存在着差别。 • 一、相关分析概述 • (一)什么是相关关系 • 在现实经济生活中,普遍存在着两种类型的数量关系:一种是函数关系;另一种是相关关系。
1、函数关系 • 函数关系是指变量之间存在的确定性的数量关系,且这种关系可以用数学表达式进行严格的描述。 • 在函数关系中的变量有自变量和因变量之分。当自变量发生变化时,因变量的值随之按确定的规律发生变化,两者之间存在一一对应的关系。 • 【观念运用9-1-1】根据数学知识,圆的面积与其半径之间存在着确定的数量关系,可用数学表达式表示为 • 同理,在销售价格(P)既定的情况下,销售额(M)与销售量(Q)之间也存在确定性的数量关系 • 因此,以上均为一种函数关系。
【思维拓展9-1-1】试列举出一些自己所熟悉的函数关系。【思维拓展9-1-1】试列举出一些自己所熟悉的函数关系。 • 2、相关关系 • 相关关系是指诸变量之间存在的非确定的数量关系,其不是一种严格的函数关系。 • 在相关关系中,一个(几个)变量发生变化时,另一变量的值也随之发生变化,但与函数关系不同的是,该变量的值是不确定的。对应于同一变量的值,另一变量往往有一组不尽相同的值与之相对应,这些不同的数值围绕其平均值上下波动。 • 【观念运用9-1-2】就居民家庭的月可支配收入与消费支出的关系而言,就是一种典型的相关关系。一般而言,居民家庭的月可支配收入越高,其消费支出也就越高。但居民家庭的消费支出并不是由其月可支配收入唯一决定的,消费支出还往往受到人们的消费倾向、心理因素以及初始财富等诸多因素的影响和制约。
【思维拓展9-1-2】与同学讨论,试列举出一些常见的相关关系的例子。【思维拓展9-1-2】与同学讨论,试列举出一些常见的相关关系的例子。 • 3、函数关系与相关关系的区别与联系 • 作为两种不同类型的变量之间的数量关系,一方面,由于观测与测量误差等原因,函数关系往往通过相关关系的形式表现出来;另一方面,为了研究相关关系,通常也需要利用确定的数学表达式来展现变量间的相关方式及其向量关系。因此,函数关系可以作为相关关系的研究工具。
(二)相关关系的分类 • 依据不同的标准,相关关系可以划分为不同的类型。在统计实践中,相关关系可做如下划分: • 1、根据变量之间相关的程度划分,相关关系可以分为不相关、不完全相关和完全相关 • 若某一变量的值完全不受另一个(几个)变量取值的影响,其数值变化相互独立,则称变量之间不相关。如股票价格与温度之间一般是不相关的。若某一变量的值完全是由另一个(几个)变量的取值所决定时,则称变量之间完全相关。如观念运用9-1-1中所示的圆的面积S与其半径R之间的关系即为完全相关。不完全相关是介于不相关与完全相关之间的一种中间状态,是指某一变量的值不仅与另一个(几个)变量的取值有关,而且还受到随机因素的影响。
显然,不相关与完全相关是相关关系中的特例,现实经济生活中,变量之间的关系往往表现为不完全相关的形式,它是相关分析的主要研究对象。显然,不相关与完全相关是相关关系中的特例,现实经济生活中,变量之间的关系往往表现为不完全相关的形式,它是相关分析的主要研究对象。 • 【观念运用9-1-3】试判断以下变量之间的关系是不相关、完全相关还是不完全相关: • 学生的身高与体重;广告投入与商品销售额;甲国的国内生产总值与乙国的国内生产总值。 • 2、按照变量间相关的方向划分,相关关系可以分为正相关和负相关
当一个变量的值与另一个(几个)变量的取值按相同的方向变化时,则称变量之间存在正相关。如观念运用9-1-2中所示的居民家庭的月可支配收入与消费支出之间的关系即为正相关。一般而言,随着居民家庭的月可支配收入的提高,居民消费支出也会随之增加。当某一变量的值与另一个(几个)变量的取值按相反的方向变化时,称变量之间存在负相关。如肺癌患者的治愈率与其吸烟时间的长短之间是负相关关系,两者变化方向相反。当一个变量的值与另一个(几个)变量的取值按相同的方向变化时,则称变量之间存在正相关。如观念运用9-1-2中所示的居民家庭的月可支配收入与消费支出之间的关系即为正相关。一般而言,随着居民家庭的月可支配收入的提高,居民消费支出也会随之增加。当某一变量的值与另一个(几个)变量的取值按相反的方向变化时,称变量之间存在负相关。如肺癌患者的治愈率与其吸烟时间的长短之间是负相关关系,两者变化方向相反。
【思维拓展9-1-3】必须注意到的是,在现实中,变量间的正、负相关关系仅在一定范围内存在。如小麦的产量与施肥量之间的关系,当施肥量在适量的范围内时,两者正相关,小麦产量随着施肥量的增加而提高;而当施肥量超量时,两者负相关,小麦产量随着施肥量的增加反而减少。【思维拓展9-1-3】必须注意到的是,在现实中,变量间的正、负相关关系仅在一定范围内存在。如小麦的产量与施肥量之间的关系,当施肥量在适量的范围内时,两者正相关,小麦产量随着施肥量的增加而提高;而当施肥量超量时,两者负相关,小麦产量随着施肥量的增加反而减少。 • 3、按照相关涉及的变量多少划分,相关关系可分为单相关和复相关 • 若某一变量的值只受另一个变量取值的影响,称两变量间为单相关。如学生的学习时间与学习成绩、可支配收入与消费支出之间就属于单相关关系。若某一变量的值受到另外几个变量取值的影响,称这些变量间为复相关。如某种商品的需求量与其价格、收入水平以及替代品的价格之间就属于复相关。
【思维拓展9-1-4】结合生活实际,试列举出一些单相关与复相关的例子,并与同学讨论。【思维拓展9-1-4】结合生活实际,试列举出一些单相关与复相关的例子,并与同学讨论。 • 4、按变量间相关的表现形态划分,相关关系可分为线性相关和非线性相关 • 若某一变量的值随着另一个(几个)变量取值的变化而发生大致均等的变化,在平面直角坐标系中大致呈现出一条直线的相关关系称为线性相关。相反,若某一变量的值随着另一个(几个)变量取值的变化而发生非均等的变化,在平面直角坐标系中呈现出一条曲线的相关关系称为非线性相关。
【观念运用9-1-4】大致说来,居民家庭的消费支出与月可支配收入之间大致就是一种线性相关关系;而产品的生产总成本与产量就表现为一种非线性相关。【观念运用9-1-4】大致说来,居民家庭的消费支出与月可支配收入之间大致就是一种线性相关关系;而产品的生产总成本与产量就表现为一种非线性相关。 • (三)相关分析的内容 • 研究变量之间的相关关系,主要目的在于明确其相互之间相关的紧密程度以及变化规律,以便做出判断、进行预测和控制。在实际的统计工作中,相关分析主要包括以下主要内容:
1、判断变量之间是否存在相关关系及其表现形式1、判断变量之间是否存在相关关系及其表现形式 • 判断变量之间是否存在相关关系是进行相关分析的重要前提和出发点。若通过定性分析的方法,初步确定变量之间存在相关关系,则可以进一步运用编制相关表、绘制相关图等方法确定变量之间相关关系的表现形式,以便运用相应的相关分析方法进行研究,不至于发生发生认知上的偏差,得出错误结论。 • 2、确定变量间相关的紧密程度 • 运用定性分析方法、编制相关表、绘制相关图等方法都不能确切的表现变量之间相关的紧密程度。在统计实务中,为了确定变量间相关的紧密程度,主要方法是通过计算相关系数。若相关系数表明相关关系很紧密,则必须进行相应的回归分析。
3、建立相关关系的数学表达式 • 为了确定变量之间数量变化方面的一般关系,通常需要借助数学公式来描述相关关系,进而进行判断、推算及预测。若变量之间存在线性相关,则采用拟合线性方程的方法;若变量之间存在非线性关系,则采取拟合曲线方程的方法。这在统计学中也被称为回归分析。
4、根据实际值,计算变量估计值的误差程度 • 根据拟合的线性方程或曲线方程,当给定某一个(几个)变量的若干值,可以求出另一个变量相应的若干值。通常而言,估计值与实际值之间是存在差距的,统计学中用估计标准误差来描述变量估计值误差成都的大小。估计标准误差越大,表明估计值与实际值的差距越大,估计越不准确;相反,估计标准误差越小,表明估计值与实际值的差距越小,估计越准确。估计标准误差的大小一般与被研究变量之间相关关系的紧密程度有密切关系。
二、相关关系的测定 • 在统计学中,测定相关关系的方法大致有相关表、相关图及相关系数三种。作为研究相关关系的直观工具,在进行定量分析之前,可以运用它们来对变量之间相关关系的方向、形式以及紧密程度等做出大致的判断,进而运用相关系数来定量描述变量之间的相关程度。 • (一)相关表 • 相关表是指将被研究变量的观测值按照一定的顺序排列在同一张表中,以表明变量之间的相关关系所形成的表格。它是描述相关关系最基本的形式。 • 按照数据资料是否分组,相关表有简单相关表和分组相关表两种。
1、简单相关表 • 简单相关表是指未将数据分组,直接将某一变量的取值按照从小到大的顺序排列,再将另一与其相关变量的取值一一对应平行排列所形成的表格。 • 【观念运用9-1-5】为了研究学生周自学小时数与平均成绩的关系,某教师组织物业管理专业的学生对本专业学生进行抽样调查,收集到如表9-1-2所示的原始数据。试为这份数据编制一个简单相关表。
表9-1-2 20名物业管理专业学生周自学小时数与平均成绩数据
解:将周自学小时数按照从小到大的顺序排列,重新编制表格,便可以得到如表9-1-3所示的简单相关表。解:将周自学小时数按照从小到大的顺序排列,重新编制表格,便可以得到如表9-1-3所示的简单相关表。
表9-1-3 物业管理专业学生周自学小时数与平均成绩的相关表
从表9-1-3可以看出,随着周自学小时数的增加,学生的平均成绩呈提高的趋势,说明两者之间存在明显的正相关关系。即使在周自学小时数相同的情况下,学生的平均成绩存在差异,但仍然能体现出周自学小时数与学习成绩之间的相关关系。从表9-1-3可以看出,随着周自学小时数的增加,学生的平均成绩呈提高的趋势,说明两者之间存在明显的正相关关系。即使在周自学小时数相同的情况下,学生的平均成绩存在差异,但仍然能体现出周自学小时数与学习成绩之间的相关关系。 • 2、分组相关表 • 分组相关表是指将原始数据进行分组,整理而成的相关表。根据分组的情况,分组相关表又有单变量分组相关表和双变量分组相关表之分。
(1)单变量分组相关表 • 单变量分组相关表是指在编制分组相关表时,只对具有相关关系的变量中的一个变量进行分组,列出各组频数,另外变量不变所形成的相关表。 • 【观念运用9-1-5】以【观念运用9-1-4】所示的数据为例,对周自学小时数进行分组编制而成的分组相关表如表9-1-4所示。
表9-1-4 周自学小时数与学生平均成绩的分组相关表
由表9-1-4可以清晰的看出,周自学小时数与平均成绩之间存在明显的正相关关系,随着周自学小时数的增加,学生平均成绩越高。由表9-1-4可以清晰的看出,周自学小时数与平均成绩之间存在明显的正相关关系,随着周自学小时数的增加,学生平均成绩越高。 • (2)双变量分组相关表 • 双变量分组相关表是指在编制相关表时,将具有相关关系的两个变量同时进行分组,一个分组设置在主体栏,另一个分组设在叙述栏所形成的分组相关表。双变量分组相关表在统计实践中运用的不是很多,在此不做详细介绍。 • 对比表9-1-3及表9-1-4可以发现,分组相关表相对于简单相关表更能清晰的反映出变量之间的相关关系。
(二)相关图 • 作为粗略表现变量之间相关关系的工具之一,相关表也是进行深入相关分析的基础和依据。根据已有的相关表,我们可以将其绘制成相应的相关图,以便能更加清晰、直观地反映变量之间的相关关系。 • 相关图又称为散点图、散布图,是指将两变量相对应的观测值在平面直角坐标系中用坐标点的形式描绘出来,以反映变量之间相关关系的图形。 • 各种相关关系所对应的相关图如图9-1-1、9-1-2以及9-1-3所示:
图9-1-1 完全相关、不完全相关和不相关的图形表现
图9-1-2 正、负相关的图形表现 图9-1-3 线性与非线性相关的图形表现
【观念运用9-1-6】根据表9-1-4所示的物业管理专业学生周自学小时数与平均成绩的分组相关表,运用统计软件,很容易得出如图9-1-4所示的相关图:【观念运用9-1-6】根据表9-1-4所示的物业管理专业学生周自学小时数与平均成绩的分组相关表,运用统计软件,很容易得出如图9-1-4所示的相关图: • 图9-1-4 周自学小时数与学生平均成绩相关图 • 由图9-1-4可以看出,周自学小时数与学生平均成绩之间存在明显的正相关关系,且这种相关关系是线性的。
(三)相关系数 • 相关表以及相关图虽能展现出两个变量之间是否存在相关关系与相关的形式和方向,单并不能在数值上表明相关关系的紧密程度。当两变量间线性相关时,为确切的判断相关的紧密程度,统计学上通常借助于英国统计学家卡尔·皮尔逊(Karl Pearson)所提出的相关系数这一概念。
1、什么是相关系数 • 相关系数是指反映两个变量之间线性相关紧密程度以及方向的统计指标,一般用表示。其计算公式为: • (9-1) • 其中: 表示变量 所对应观测值的算术平均值; • 表示变量 所对应观测值的算术平均值。 • 其中,相关系数的符号决定相关关系的方向,其绝对值的大小决定相关的紧密程度。
其中,相关系数的符号决定相关关系的方向,其绝对值的大小决定相关的紧密程度。其中,相关系数的符号决定相关关系的方向,其绝对值的大小决定相关的紧密程度。 • 一般而言,相关系数具有以下几个性质: • (1)相关系数r能判断两变量之间是否存在线性相关关系以及相关的方向和紧密程度,但不能作为判断非线性相关关系的依据。因此,当r=0或很小时,我们只能说两变量间不存在线性相关关系,而不能说它们不相关。 • (2)在计算相关系数时,两变量之间不存在主次关系。 • (3)用以计算相关系数的两变量的数据必须是随机抽取的。 • (4)相关系数是有正负之分的。相关系数为正,表明两变量之间正相关;反之,相关系数为负,表明两变量之间负相关。
(5)的取值范围为: 。|r|越接近于1,表明两变量之间的线性相关程度越紧密;反之,|r|越接近于0,表明两变量之间的线性相关程度越弱。在统计实践中,一般根据的大小,把两变量之间线性相关的程度做以下划分: • 1)当|r|=0时,说明两变量之间不存在线性相关关系;
2)当0<|r|≤0.4时,表明两变量之间线性相关的紧密程度很弱;2)当0<|r|≤0.4时,表明两变量之间线性相关的紧密程度很弱; • 3)当0.4<|r|≤0.7时,表明两变量之间线性相关的紧密程度显著; • 4)当0.7<|r|<1时,表明两变量之间高度线性相关; • 5)当|r|=1时,表明两变量之间存在完全的线性相关关系。
2、相关系数的计算 • 在统计实践中,我们可以运用公式6-1来计算相关系数,但比较复杂。因此,通常采用以下简捷公式来计算相关系数: • (9-2) • 其中:n为样本容量。 • 【观念运用9-1-7】运用相关系数的计算公式,判断任务一中所示数据中年资金投入与利润总额之间是否存在相关关系,若存在,为何种相关关系,紧密程度如何? • 解:根据表9-1-1所示的数据,可以得出如下图所示的相关图
图9-1-5 年平均资金投入与利润总额之间的相关图
由图9-1-5可以看出,随着年平均资金投入的增加,物业服务企业的利润总额呈增大趋势,两者之间存在正相关关系,从相关图来看,两者间的相关是线性的。因此,我们可以通过计算相关系数来判断两者相关的紧密程度。假设年平均资金投入用表示,利润总额用表示,则很容易得到如下表格:由图9-1-5可以看出,随着年平均资金投入的增加,物业服务企业的利润总额呈增大趋势,两者之间存在正相关关系,从相关图来看,两者间的相关是线性的。因此,我们可以通过计算相关系数来判断两者相关的紧密程度。假设年平均资金投入用表示,利润总额用表示,则很容易得到如下表格:
表9-1-5 10家物业服务企业年平均资金投入与利润总额间相关系数计算表 单位:万元
将表9-1-5中计算出的 、 、 、 以及 • 的值,代入相关系数的计算公式(9-2),得相关系数: • 计算结果显示,相关系数r=0.90,接近于1。表明年平均资金投入与利润总额之间存在高度的线性相关关系。