260 likes | 443 Views
8 相关分析与回归分析. 教学目标. 通过本章的学习,让学生掌握相关关系的概念,了解相关关系与函数关系的区别,掌握反映相关关系紧密程度的衡量指标 —— 相关系数的计算原理、方法及其应用。掌握具有相关关系变量之间的数量关系形式,以及如何建立回归方程的拟合方法,能利用回归方程对现象的未来发展情况进行预测和估计,并对产生的估计误差进行分析。. 关键词汇. 相关关系( Correlation ) 函数关系( Function ) 相关系数( Correlation Coefficient ) 回归方程( Regression Equation ). 8 相关分析与回归分析.
E N D
8相关分析与回归分析 教学目标 通过本章的学习,让学生掌握相关关系的概念,了解相关关系与函数关系的区别,掌握反映相关关系紧密程度的衡量指标——相关系数的计算原理、方法及其应用。掌握具有相关关系变量之间的数量关系形式,以及如何建立回归方程的拟合方法,能利用回归方程对现象的未来发展情况进行预测和估计,并对产生的估计误差进行分析。 关键词汇 相关关系(Correlation) 函数关系(Function) 相关系数(Correlation Coefficient) 回归方程(Regression Equation)
8相关分析与回归分析 8.1 相关关系 8.2 相关系数 8.3 直线回归方程 ◎ 知识归纳 ◎ 习题与思考题
8.1 相关关系 8.1.1 相关关系的概念 在自然界和现实社会中存在着各种各样的现象,但是这些现象并不是孤立地存在,而是相互联系、相互制约、相互依存。一方面一种现象的变化受到其他多种现象的影响,是其他多种现象影响的共同结果;另一方面该现象的变化又会影响其他现象的变化和发展。如企业的产品销售量受到产品的质量、价格、企业销售能力、消费者对产品的需求欲望和购买能力等多种因素的共同影响,是这些因素共同影响的结果,反过来企业产品的销售量又会影响这些因素的变化;又如圆的面积与圆的半径之间具有一定的关系,圆的半径直接确定了圆的面积的大小,诸如此类现象在社会经济中数不胜数。从数量上分析、研究这些现象之间的依存关系,找出它们之间量变的规律性,是相关关系统计分析的重要任务。 现象之间存在的数量关系可以归纳为两种类型:函数关系和相关关系。 1函数关系 现象之间的影响并不是对等的,它们之间有因果关系,把影响其他现象变化的因素称为自变量,受其他因素影响的因素称为因变量。 2相关关系 社会经济现象中有很多现象,自变量确定后所对应的因变量并不是唯一的。 相关关系是指现象之间确实存在的,但在数值上并不严格对应的一种数量依存关系。
8.1.2 相关关系的种类 相关关系以不同的方向、不同的程度相互作用,并表现出不同的类型和形态。相关关系可以按照不同的标准进行分类: 1按相关关系中所涉及因素的多少划分为单相关与复相关 单相关是指两个变量之间的相关关系,这两个变量中,一个是自变量,另一个是因变量,如成本与利润,农田施肥量与产量之间的关系。有的两者之间互为自变量或因变量,如纤维的拉伸倍数与拉伸强度之间的关系。这些关系中都只涉及到两个变量。单相关是最简单的也是最基本的相关关系。 复相关是指三个或三个以上变量之间的相关关系,如商品销售额与商品价格、商品质量、消费者购买能力、广告等因素之间的相互关系涉及到五个变量。 2按变量之间的变化方向的不同可分为正相关与负相关 正相关是指一个变量变化时另一个变量也按照相同的方向变化,即一个变量上升时另一个变量也上升,一个变量下降时另一个变量也下降,两个变量变化总是保持相同的变化方向。图8.1所示为正相关。 负相关是指一个变量变化时另一变量按照这一变量相反的方向变化,即一个变量上升时另一个变量下降,一个变量下降时另一变量上升,两变量之间总是保持相反的变动方向。图8.2所示为负相关。
图 8.2 图 8.1
3从变量之间联系的表现形式上可分为直线相关和曲线相关 如果变量之间存在着相关关系,因变量类似地表现为一次函数,则称为线性相关。若因变量不能表现为自变量的一次函数,则称为非线性相关。 现以一个因变量与一个自变量为例,将自变量与因变量的观察值描述在坐标图上,如果这些坐标点大致在一条直线的附近,则称这种相关关系为直线相关,图8.3所示为直线相关。如果这些点为非线性状态则称为非线性相关,图8.4与图8.5所示为非线性相关。
图 8.3 图 8.4 图 8.5 4按相关程度可分为完全相关、不完全相关和完全不相关 完全相关是指变量之间的变动完全是一一对应,存在着严格的依存关系,这种相关关系实际上是函数关系。不完全相关是指变量之间存在着不严格的依存关系,这是相关关系的主要表现形式,也是统计研究的主要对象。完全不相关是指变量之间彼此互不影响的关系,即两个变量之间不存在任何关系。
8.1.3 相关分析与回归分析的主要内容 相关分析和回归分析的目的,就是要分析现象之间相互关联的密切程度及其变化的规律性,从而为推断和控制提供依据。相关分析和回归分析的主要内容可归纳为: 1在定性分析的基础上,确定现象之间有无相关关系以及相关的形式 确定现象之间是否存在相关关系,是进行相关分析的基础。 2确定相关关系的密切程度 由于相关关系变量之间不是一种严格的数量依存关系,有的现象变量之间的关联性强,有的现象变量之间的关联性弱。判断现象变量间依存关系紧密程度的方法,主要是利用相关系数来确定。 3根据历史资料的观察值建立现象变量之间的回归方程 在相关关系中,自变量的某一变量值所对应的因变量是一个随机变量,并不是一个确定值,而是对应许多个值,通过建立回归方程可以确定由于自变量的变化所引起因变量变化的一般水平。
4测定因变量的实际观察值与因变量的估计值之间的差异程度——估计误差4测定因变量的实际观察值与因变量的估计值之间的差异程度——估计误差 确定了现象间变量的一般数量关系即回归方程后,当自变量发生变化时,可以计算出因变量的估计值,这个值也叫回归值。但是这个值并不是自变量所对应变量的实际值,只是一个估计值而已,与实际值之间存在着一定的差异,这个差异叫作估计误差。估计误差一方面可以反映回归方程拟合原始观察值的拟合程度,如果拟合程度高,误差小,否则误差大;另一方面估计误差是对自变量所对应的因变量变化范围进行估计的依据。 返回
8.2 相 关 系 数 8.2.1 相关系数的意义与计算 对相关关系进行描述有两种方法,一是通过定性分析,二是通过数量来测定。在对现象之间的相关关系进行数量测定之前,必须通过定性分析来判断现象之间有无相关关系,以及相关的方向。定性分析现象之间的相关关系是进行数量分析的前提。在定性分析的基础上,再把反映现象关系的成对观察值编制成相关表和描绘散点图,以此来说明现象之间的相关方向、形态和大致的密切程度。 相关表是将反映现象的原始数据,依自变量的变量值大小顺序排列,因变量与之相对应排列而形成的统计表。如表8.1为劳动量与产量之间的相关表。 表8.1 产品产量与劳动力投入量表
相关表是计算相关系数和建立回归方程的基础。相关表只能大致表明现象之间的关联方向,但是不能准确地说明现象之间的关联程度,现象之间的关联程度只能通过计算相关系数来说明。相关表是计算相关系数和建立回归方程的基础。相关表只能大致表明现象之间的关联方向,但是不能准确地说明现象之间的关联程度,现象之间的关联程度只能通过计算相关系数来说明。 相关系数是用来反映现象之间关联程度的统计指标,常用符号r表示。两变量之间的相关系数的计算定义公式为: (8.1) 式中 σx——x变量的样本标准差; σy——y变量的样本标准差; σxy——变量x和变量y两个变量的协方差; n——变量x与y成对个数。
由于上面一个公式计算起来非常不方便,可以将上面的公式进行变形得到下面的公式:由于上面一个公式计算起来非常不方便,可以将上面的公式进行变形得到下面的公式: (8.2) 相关系数r的取值范围在-1到+1之间。r的绝对值越大越接近于1,表明两变量之间的线性关联程度越大,反之越小。如果r=0,表明两变量之间完全线性不相关;如果r=1表明两变量之间完全线性相关。另外,r>0表明两变量之间存在正相关,r<0表明两变量之间存在负相关。 相关系数的绝对值在0~1之间的线性相关还可以作进一步的划分,一般来说可以分为:相关系数的绝对值在0~0.3之间的为不相关;在0.3~0.5之间为低度相关;在0.5~0.8之间为显著相关;大于0.8为高度相关。 返回
8.3 直线回归方程 8.3.1 直线回归的概念 相关分析说明现象之间有无相关关系以及关系的紧密程度,但是不能说明一个现象发生变化时,另外一个现象会发生多大的变化,而回归分析就是要解决这个问题。 在相关关系中由于自变量所对应的因变量不是确定的,因此可以用下面的数学表达式来表达一个自变量(x)与因变量(y)之间的关系: yi=a+bxi+εi (8.3) 在这个数学关系中a、b是两个待定的参数,εi是一个期望值为0的随机变量,因此在给定一个x值后所得到的y值并不是确定的,而是随机变量,与相关关系的基本含义是相符合的。对公式(8.3)两边同时求期望(平均的含义)得: E(yi)=E(a)+E(bxi)+E(εi)=a+bxi (8.4) 从上式中可以得出虽然x值所对应的y值不是一个确定的值,但是x值所对应的y值的平均值是一个确定的值,而且x值每变化一个单位,引起y值的平均值b个单位的 变化。上式可以写成: ,这就是一元线性回归方程。
回归分析是指对具有相关关系的现象,根据相关的性质,选择一个适合的数学模型,用来近似地反映变量间的平均变化关系的一种统计分析方法。回归分析是指对具有相关关系的现象,根据相关的性质,选择一个适合的数学模型,用来近似地反映变量间的平均变化关系的一种统计分析方法。 回归分析与相关分析既有区别又有联系:从联系上看,两者都是分析具有相关关系的变量之间的关系。从区别上看,相关分析是分析变量之间有无相关关系以及关系的紧密程度,而回归分析是分析变量之间联系的形式;相关分析中各变量之间是对等的,不需要分清哪个变量是自变量,哪个变量是因变量,且两个变量都是不可控制的随机变量,而回归分析中必须分清哪个变量是自变量,哪个变量是因变量,且自变量是可以控制的变量,而因变量是不可以控制的随机变量;相关分析的结果是用相关系数来反映,而回归分析的结果是用回归方程来表示。
8.3.2 一元直线回归方程的建立 在回归分析中,如果变量之间是线性关系,且自变量只有一个,所建立的回归方程称为一元线性回归方程。如果有两个或两个以上的自变量则称为多元线性回 归方程。一元直线回归方程的模型为 。 在一元直线回归方程中a、b是两个待定的参数,其中a是回归直线的截距,b是回归直线的斜率,也称为回归系数。通过求出a、b两个参数就能确定一元直线回归方程。求a、b值必须掌握一定数量的自变量与因变量之间成对的观察值,采用最小平方法来拟合一元直线回归方程。 最小平方法的原理是所有因变量的观察值与相对应的回归值之间的离差平方的总 和为最小值,即 为最小值,根据求最小值的数学原理来求a、b值。
设 ,要求 的最小值即是求Q的最小值。根据求最小值的数学原理得到: (1) (2) 由上面的式(1)和式(2)整理得到下面两式:
由上面的两个式子可以求出a和b的表达式: (8.5) 回归系数b与相关系数r既有区别又有联系,它们是两个不同的计量指标,相关系数反映了两个变量之间的相关方向和相关程度。但是又存在着下面的数量关系: (8.6) 从上式中表明相关系数与回归系数的变化方向是相同的,即相关系数越大,回归系数也越大;反之越小。
8.3.3 回归方程的估计标准差Sy 什么是回归方程的估计标准差? 在求回归直线方程的参数a和b时,由于所使用的资料仅仅是全部资料中的一小部分,只是一个样本, 计算所得的回归直线方程是采用最小平方法拟合求得的一条直线,它反映了历史观察值的变动趋势,事实上并不是所有的观察值都在这条直线上,所以观察值与回归值之间总是存在着一定的离差。所有观察值与相对应的回归值之间的离差平方平均数的方根,称为回归方程的估计标准差,也可以叫作回归方程的估计误差,记作sy。 回归方程的估计标准差可以采用如下公式计算: (8.7) 在计算回归方程的估计标准差时,严格意义上的分母应该是n-2而不是n,当n大于等于30时,分母用n与n-2区别不大。
回归方程估计标准差主要用来对分析对象进行区间估计。估计公式:回归方程估计标准差主要用来对分析对象进行区间估计。估计公式: (8.8) 式中 ——回归方程的点估计值,由回归方程计算得到; sy——回归方程的估计标准差; t——估计区间在1-α的可靠程度下的概率度,可通过查正态分布概率表得到。 返回
知识归纳 现象之间可能存在着一定的关系,现象之间的关系可以分为函数关系和相关关系。前者,自变量所对应的因变量是确定且唯一的;后者自变量所对应的因变量是随机变量。相关分析的目的在于分析变量之间相关关系的紧密程度,分析的结果是用相关系数来表示;而回归分析则是分析变量之间的依存关系,用回归方程来表示分析结果。结合回归方程估计标准差的计算,还可以对回归值的大小进行点估计和区间估计。 返回
习题与思考题 一、判断题 1相关关系和函数关系都属于完全确定性的依存关系。() 2若变量x的值减少时变量y的值也减少,说明变量x与y之间存在正相关关系。() 3相关系数r有正负、有大小,因而它反映的是两现象之间具体的数量变动关系。() 4只有当直线相关系数接近于+1时,才能说明两变量之间存在高度相关关系。() 5当直线相关系数r=0时,说明变量之间不存在任何相关关系。() 6回归系数b的符号与相关系数r的符号,可以相同也可以不相同。() 7在直线回归分析中,两个变量是对等的,不需要区分因变量和自变量。() 8在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 二、单项选择题 1当变量x按固定数值变化时,变量y也近似地按固定数值变化,这表明变量x和变量y之间存在着——。 ① 完全相关关系 ② 复相关关系 ③ 直线相关关系 ④ 没有相关关系
2单位产品成本与其产量的相关,单位产品成本与单位产品原材料消耗量的相关——。 ① 前者是正相关,后者是负相关 ② 两者都是正相关 ③ 前者是负相关,后者是正相关 ④ 两者都是负相关 3相关系数r的取值范围——。 ① -∞< r <+∞ ② -1≤ r ≤+1 ③ -1< r <+1 ④ 0≤ r ≤+1 4在相关分析中,要求相关的两个变量——。 ① 都是随机变量 ② 都不是随机变量 ③ 只有因变量是随机变量 ④ 只有自变量是随机变量 5当所有观察值都落在回归直线y=a+bx上,则x与y之间的相关系数。 ① r=0 ② r=1 ③ r=-1 ④ ∣r∣=1 6下列哪两个变量之间的相关程度高? ① 商品销售额和商品销售量的相关系数是0.9 ② 商品销售额与商业利润率的相关系数是0.84 ③ 平均流通费用率和商业利润率的相关系数是-0.94 ④ 商品销售价格与商品销售量的相关系数是-0.91 7年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x,这意味着年劳动生产率每提高1000元时,工人工资平均。 ① 增加70元 ② 减少70元 ③ 增加80元 ④ 减少80元 8某校对学生的考试成绩和学习时间的关系进行测定,建立了考试成绩y和学习时间x的直线回归方程为:y=180-5x,该方程明显有错,错误在于。 ① a值的计算有误,b值是对的 ② b值的计算有误,a值是对的 ③ a值和b值的计算都有误 ④ 自变量和因变量的关系搞错了
三、多项选择题 1下列现象中,属于相关关系的有——。 ① 压力和压强 ② 现代化水平与劳动生产率 ③ 圆的面积与圆的半径 ④ 身高与体重 ⑤ 机械化程度与农业人口 ⑥ 商品价格一定,销售额=价格×销售量 2相关关系与函数关系各有不同的特点,主要体现在——。 ① 相关关系是一种不严格的互相依存关系 ② 函数关系可以用一个数学表达式精确表达 ③ 函数关系中各现象均为确定性现象 ④ 相关关系是现象之间具有随机因素影响的依存关系 ⑤ 相关关系中现象之间仍可以通过大量观察法来寻求其变化规律 3相关系数r=0.9,这表明现象之间存在着——。 ① 高度相关关系 ② 低度相关关系 ③ 低度负相关关系 ④ 高度正相关关系 ⑤ 低度正相关关系 4判断现象之间有无相关关系的方法是——。 ① 对客观现象作定性分析 ② 编制相关表 ③ 绘制相关图 ④ 计算相关系数 5确定直线回归方程必须满足的条件是——。 ① 现象之间确实存在着数量上的相互依存关系 ② 相关系数r必须等于1 ③ 相关现象必须均属于随机现象 ④ 相关数列的项数必须足够多 ⑤ 现象之间存在着较密切的直线相关关系
6在一元线性回归方程y=a+bx中,b值。 ① 是回归系数 ② 是回归直线的起点 ③ 是回归直线的截距 ④ 既是回归系数,也是相关系数 ⑤ 表示当x每增加一个单位时,y平均增加的数量值 四、简答题 1什么是相关分析?什么是回归分析?两者有何区别和联系? 2相关系数和回归系数的区别和联系是什么? 3什么是回归方程的估计误差? 五、计算题 1为研究产品销售额与销售利润之间的关系,某公司对所属6家企业进行调查。设产品销售额为x(万元),销售利润为y(万元),调查资料经初步整理和计算,结果如下: ∑x=225,∑x2=9823, ∑y=13,∑y2=36.7,∑xy=593 要求:(1) 计算销售额与利润之间的相关系数。 (2) 写出配合销售利润对销售额的直线回归方程。
2某企业某产品产量与单位成本的资料如下:2某企业某产品产量与单位成本的资料如下: 要求:(1) 计算相关系数,并说明相关程度和方向。 (2) 以产量为自变量,单位成本为因变量,建立直线回归方程。 (3) 指出产量每增加1万件时,单位成本下降多少元? (4) 如果8月份的产量估计值为9万件,试利用直线回归方程推算8月份的单位成本。
3下面是12名新生的入学成绩(x)与一年级末各门功课考试的总成绩(y)的资料:3下面是12名新生的入学成绩(x)与一年级末各门功课考试的总成绩(y)的资料: 要求:(1) 求出x与y之间的相关系数r。 (2) 求出一元线性回归方程。 (3) 计算回归方程的估计误差。 (4) 当某学生的入学成绩是300分时,在95%的可信程度的保证下,该生一年级末各门功课的成绩的区间范围。 返回