290 likes | 393 Views
第八章 回归分析预测方法. 回归分析起源于生物学的研究。英国的著名生物学家达尔文在 19 世纪末,发现了一个非常有趣的现象,父亲身材高大的,其子也比较高大,父亲矮小的,其子也比较矮小。即父亲的身高与儿子的身高之间有密切的关系。在大量的研究资料中,又发现身高有一种向平均身高回归的倾向,这种身高倾向平均数的现象称为回归( Regression )。经济学家经研究发现,生物界的这种现象,在经济领域中也存在这种现象,例如,证券市场的任何一支股票,无论是牛市或熊市股票的价格都向着平均价格回归。也正因为如此,回归分析在许多领域中都得到了广泛的应用,并且取得了很好的效果。.
E N D
第八章 回归分析预测方法 回归分析起源于生物学的研究。英国的著名生物学家达尔文在19世纪末,发现了一个非常有趣的现象,父亲身材高大的,其子也比较高大,父亲矮小的,其子也比较矮小。即父亲的身高与儿子的身高之间有密切的关系。在大量的研究资料中,又发现身高有一种向平均身高回归的倾向,这种身高倾向平均数的现象称为回归(Regression)。经济学家经研究发现,生物界的这种现象,在经济领域中也存在这种现象,例如,证券市场的任何一支股票,无论是牛市或熊市股票的价格都向着平均价格回归。也正因为如此,回归分析在许多领域中都得到了广泛的应用,并且取得了很好的效果。
第一节 回归分析预测法概述 回归分析预测法是在分析因变量与自变量之间的相互关系,建立变量间的数量关系近似表达的函数方程,并进行参数估计和显著性检验以后,应用回归方程式预测因变量变化的方法。回归分析预测法是市场预测的基本方法,目前,这种方法发展的很成熟了,回归预测方法种类繁多,按回归方程的变量分,有一元、多元回归方程;按回归性质分有线性、非线性回归等。本章专门讨论一元和二元线性回归问题。 ◆回归分析预测法的步骤 1、确定预测目标和影响因素 市场预测的目标是因变量,研究者可根据预测的目的来确定。例如,以未来5年小家电需求为目的的市场预测,它的因变量就是未来5年小家电的需求量。
2、进行相关性分析 对变量之间的相关关系进行分析。这一过程主要包括两个方面: ①确定变量之间关系,即确定变量之间是否存在不具有数值对应关系的确定依存关系。换句话说,当自变量的确定值为x,与其对应值为y。这是回归分析法预测的前提。 ②确定变量之间的相关密切程度,这是相关分析的主要目的和主要内容。 3、建立回归预测模型 就是依据变量之间的相关关系,用恰当的数学表达式表示出来。
4、回归方程模型检验 • 建立回归方程的目的是预测,但方程用于预测之前需要检验回归方程的拟合程度和回归参数的显著性,只有通过了有关的检验后,回归方程才可用于预测,常用的检验方法有相关系数r检验、F检验、t检验等。 • 5、预测 • 一是点预测,二是区间预测。 • 点预测:就是所求的预测值为一个数值。 • 区间预测:所求的预测值有一个数值范围。通常要用正态分布的原理估计其标准误差,求得预测值的置信区间[ŷ0-δ, ŷ0+ δ]。
第二节 一元线性回归预测方法 一、一元线性回归模型 我们知道经济变量之间通常存在着各种各样的相互关系。例如,收入和消费;价格与需求量之间,都有一定的关系。就收入与消费的关系而言,一般来说,收入高,消费支出就高;就价格与需求而言,价格越高,需求量就越少。
下面是1980年以来人平均收入和人平均消费支出的七组数据,见表下面是1980年以来人平均收入和人平均消费支出的七组数据,见表 从表中可知,x和y呈现线性规律,设回归线性方程为: ŷi=a+bx (1) 由(1)可得到x和y之间的定量关系表示为: (2)
其中:(2)中: a 和b—回归系数 ;a—截距;b—斜率。 二 、 回归参数估计 由一组观察值画出散点图,如图所示,这样的直线可画出很多条,而回归直线只有一条,因为只有回归直线最接近实际观察值。要拟合一条最理想的回归直线,就要确定a和b。确定a和b的方法有多种,其中应用最多的是最小二乘法。 回归直线 t 回归直线的散点图
最小二乘法 设任意一个回归值ŷi实际观察yi之间存在的误差为ei,令 则有: (3) (4) (5) (6) (7)
三、回归方程的显著性检验 由(6)、(7)解得a,b分别为: (8) 即由 ,求得的a, b 称为最小二乘法. a和b求出之后,在理论上来说线性回归模型就应确定了,但在实际应用中,并非如此。由于在实践中,经常是资料不全,由(8)确定的a和b就会有所不同。因此,为了避免这种情况出现的过大误差,在允许误差的情况下,
必须在a和b求出之后,进行可靠性检验。其方法如下:必须在a和b求出之后,进行可靠性检验。其方法如下: ①回归方程F显著性检验; ②相关系数r显著性检验。 显著性检验 • F检验 检验方程中:y=a+bx 中的a,b是否能够描述收集到的数据反映的规律, 将通过上式计算F的值,与F分布表查到的Fc临界值比较,从而判断回归方程是否具有显著性。 ①当 F> F c (α,m,n-m-1),则回归方程与实际直线方程拟和的程度好,x和y之间的变化是符合回归模型; ②当F ≤ FC(α,m,n-m-1)时,则回归模型与实际直线
方程拟和程度不好, x和y之间的变化不符合实际直线的变化,预测模型无效。 • 相关系数显著性检验 检验相关系数r,反映自变量x与因变量y之间的线性相关关系的强弱程度。其计算方法为: (1) (2)
判断r显著性 • ① 按(1)或(2)求出r • ②选择α • ③从相关系数临界表中查出rc • 当r» rc,时,x和y高度相关P238 • 回归方程的精度分析 (12) (13)
四、预测区间估计 (一)有关概念: 1、点估计 在一元线性回归模型中,是指对于自变量x的一个给定值x0,ŷ=a+bx,就可以得到一个ŷ0,称为点估计。 2、区间估计 回归模型通过检验合格之后,则该模型可用来预测了,但通常指出预测区间,这个区间又称为置信区间。 对于观察数据量n ≤30的小样本而言,因变量y的估计值ŷ0的置信区间为:[ŷ0-δ, ŷ0+ δ] (18) (19)
应用1 实际问题应用1 某地区1988~1994年结婚人数与某家电产品销售额如表8-2所示,假定1995年该地区的结婚人数将达74百对,试预测同时期年该家电产品的销售额。 表8-2
结婚人数 解:1、画散点图。如图8-3 由图可知:结婚人数与 家电产品的销售量呈线性关系,故可用一元线性回归模型进行预测。 图8-3 家电产品的销售量 2、确定一元回归预测模型参数a,b。 其中: 并将有关计算a,b的数据填入表中
由表中的数据计算a,b 则所求的一元线性回归预测方程为: ŷ=a+bx=5.44+0.73x b=0.73的经济含义是该地区结婚人数每增加1百对,该家电销售额将0.73百万元。 3、模型检验 (1)方差分析
∴S回=S²XY/Sxx=770.57²/1058.86=560.77,m=1 S余=Syy-S²XY/Sxx=565.71-770.57²’1058.86=4.94 n-m-1=7-1-1=5, S总=Syy=565.71, n-m-1=7-1=6, (2)F检验 当α=0.05,Fc(α,m,n-m-1)=Fc(0.05,1,5)=6.61 ∵F=567.58>Fc=6.61 ∴回归模型具有显著性水平,即x和y高度相关,模型有效.
(3)相关系数r显著性检验 4、预测模型点估计及置信区间 1995年的结婚人数x0=74(百对)时,在同期内相应的家电产品销售额为:ŷ=5.44+0.73×74=59.46(百万元) 5、计算标准误差 当置信度为95.4%时,预测值y0的置信区间为: [ŷ0-2Sy,ŷ0+2Sy]=[59.48-2×0.994,59.46+2×0.994]=[57.47,61.45]
第三节 多元线性回归预测分析法 在进行市场预测时,常常会遇到变量并非是两者之间的关系,而是几个因素共同发生的作用,用一元线性回归分析法就不能进行预测了,这时要用多元线性回归方程进行预测。 一、多元线性回归预测法的概念 影响因变量的因素有两个或两个以上,且自变量与因变量的分布呈线性趋势的回归,用这种回归分析进行预测的方法称为多元线性回归预测。 二、多元线性回归预测法 一般形式:ŷi=a+b1x1+b2x2+……+bmxm 其中: x1,x2,……,xn 为自变量, a, b1, b2, ……, bn为回归方程的参数
存在两个自变量条件下的多元线性回归方程称为二元线性回归方程,它是多元回归方程的特例。存在两个自变量条件下的多元线性回归方程称为二元线性回归方程,它是多元回归方程的特例。 1、建立线性回归方程 多元回归方程(以二元为例)线性回归预测法的步骤如下: ŷi=a+b1x1+b2x2+……+bmxm (1) 将相关数据代入上式方程组,得到参数a, b1, b2, 则多元回归方程为: ŷi=a+b1x1+b2x2(2) 2、检验 (1)利用复相关系数检验回归方程整体显著性。
当给定一个α,并根据自由度=n-m-1,就可查出rc判断了。当给定一个α,并根据自由度=n-m-1,就可查出rc判断了。 (2)t检验 检验每一个自变量与因变量在指定的显著水平上是否存在线性相关关系。 例题(略)。
第四节 回归分析中的非线性问题 以上学到得的都是线性的,但在实际应用中,碰到的问题经常是非线性的,有些可将其线性化,有 如下形式: 1、三角函数 y=a + sin t (1) 令x= sin t, 则(1)可变为:y=a+x (2) 即(1)可转化为线性方程。 2、指数函数 (3) (4)
3、幂函数 4、双曲函数 5、对数函数
实际问题应用2 某店在1984~1993年的商品流通费用率和商品零售额的具体情况见表8-7,若1995年商品销售额36.33万元,请预测1995年的商品流通费用率。 解题步骤: (1)散点图 (2)确定预测模型
(3)确定参数a,b, • 可得预测模型:ŷ=2.5611+42.8726/x • 相关系数r检验 • (5)进行预测 • 当x=36.33时, ŷ1995=2.5611+42.8726/x=3.74%
则预测模型为:ŷ=2.2256+7.621x'= 2.2256+7.621/x (2)对回归预测模型的统计检验 则 即商品流通费用率y与销售额倒数变量x‘之间存在正 线性关系。
(3)计算x´的控制范围 由公式: ∴x'm=min{0.0153786,0.082876}=0.0153786 x'M=max{0.0153786,0.082876}=0.082876 ∵ x'm=1/ x'm =12.066(百万元) x‘M =1/ x’M =65.065(百万元) ∴销售额控制在12.066~65.065百万元之间,而流通费用率控制在2% ~3.2%之间的概率近似为95。4%。
本 章 小 结 回归分析是研究自变量与因变量之间的关系形式的一种方法。其目的在于根据已知自变量来估计预测因变量的总平均值。 相关分析与回归分析是两个既有区别又有联系的基本概念,相关分析是研究两个或两个以上随机变量之间相互关系的密切程度,不表示他们的相关形式。回归分析是研究某因变量与一个或多个自变量之间的数量变动关系。二者的区别:相关分析研究的都是随机变量,并且不分自变量和因变量;回归分析研究的变量要定出自变量和因变量,并且自变量是确定的普通变量,因变量是随机变量。两者的联系:它们是研究现象之间相互依存关系的两个不可分割的方面。在实际工作中,一般先进行相关分析,由相关指数的大小决定是否需要进行回归分析。而在相关分析的基础上必须拟合回归模型,以便进行推算、预测。 根据回归模型自变量的多少可分为一元回归模型和多元回归模型。根据回归模型是否线性可分为线性回归模型和非线性回归模型。根据回归模型是否用滞后的因变量作自变量可分为无自回归现象的回归模型和自回归模型。