540 likes | 939 Views
非线性回归分析. 基本概念 非线性模型及其线性化方法. 在社会与自然科学中, y 关于 x 的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。. 在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见。.
E N D
非线性回归分析 • 基本概念 • 非线性模型及其线性化方法
在社会与自然科学中,y关于x 的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。
在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见。 如著名的恩格尔曲线(Engle curves)表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线(Pillips cuves)表现为双曲线形式等。 但是,大部分非线性关系又可以通过一些简单的数学处理,使之化为数学上的线性关系,从而可以运用线性回归的方法进行计量经济学方面的处理。
一、模型的类型与变换 1、倒数模型、多项式模型与变量的直接置换法 例如,描述税收与税率关系的拉弗曲线:抛物线 s = a + b r + c r2 c<0 s:税收; r:税率 设X1 = r,X2 = r2, 则原方程变换为 s = a + b X1 + c X2 c<0
2、幂函数模型、指数函数模型与对数变换法 例如,Cobb-Dauglas生产函数:幂函数 Q = AKL Q:产出量,K:投入的资本;L:投入的劳动 方程两边取对数: ln Q = ln A + ln K + ln L
3、复杂函数模型与级数展开法 例如,常替代弹性CES生产函数 (1+2=1) Q:产出量,K:资本投入,L:劳动投入 :替代参数, 1、2:分配参数 方程两边取对数后,得到: 将式中ln(1K- + 2L-)在=0处展开台劳级数,取关于的线性项,即得到一个线性近似式。 如取0阶、1阶、2阶项,可得
几种常见的非线性模型 • 指数函数 • 基本形式: • 线性化方法 • 两端取对数得:lny= ln + x • 令:y' = lny,则有y'= ln + x • 图像
=-1 = 1 1 <-1 0< < 1 -1< <0 几种常见的非线性模型 • 幂函数 • 基本形式: • 线性化方法 • 两端取对数得:lg y = lg + lg x • 令:y' = lgy,x'= lg x,则y'= lg + x' • 图像
< 0 > 0 几种常见的非线性模型 • 双曲线函数 • 基本形式: • 线性化方法 • 令:y' = 1/y,x'= 1/x, 则有y'= + x' • 图像
0 <0 几种常见的非线性模型 • 对数函数 • 基本形式: • 线性化方法 • x'= lgx , 则有y'= + x' • 图像
几种常见的非线性模型 • S 型曲线 • 基本形式: • 线性化方法 • 令:y' = 1/y,x'= e-x, 则有y'= + x' • 图像
非线性回归(实例) • 【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。
非线性回归(实例) 生产率与废品率的散点图
多项式函数 • Y=β0+ β1x + β2x2+… + βpxp • 设τi=xi • 则多项式化为: Y= β0+ β1 τ1 + β2 τ2+… + βp τp • 多元幂函数 y=αx1 β 1 x2 β 2… xp β p lny=ln α + β1ln x1+…+ βpln xp 令z= lny, β0= ln α,τi= ln xi z= β0 + β1 τ1 + β2 τ2+… + βp τp
指数函数 y=a∏e β ixi ㏑y=㏑a+ β1x1 + β2x2+… + βpxp z= ㏑y, β0= ㏑a,则 z= β0 + β1x1 + β2x2+… + βpxp • 多元对数函数 y=a+ β1㏑x1 + β2㏑x2+…+ βp㏑xp 设τi= ㏑xi, 则 y=a+ β1 τ1 + β2 τ2 +…+ βp τp
指数函数与幂函数的积 y=aexp{∑βixi} ∏xibi ㏑y=㏑a+ β1x1 + β2x2+… + βpxp +b1㏑x1 +b2㏑x2+… +bp㏑xp 令z= ㏑y, β0= ㏑a,τi= ㏑xi z= β0 + β1x1 + β2x2+… + βpxp +b1 τ1 +b2 τ2+… +bp τp
例7 某企业在15年中每年的年产量x和总成本y,试建立y对x,x2和x3的多项式回归方程.(数据见spssex/例子7)
如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数 • 如果是三次差分大致相同,则可配合三次多项式函数
例8 根据某地1985-1993年间农产品收购额,建立回归方程.(数据见spssex/例子8) MODEL: MOD_2. Independent: x Dependent Mth Rsq d.f. F Sigf b0 b1 b2 y QUA 1.000 6 202698 .000 178.095 5.2238 3.8810
例9 某制造厂表面处理车间试验将铬后污水同电解污泥混合,使之生成无毒溶液,效果很好.但实际排出污水的浓度不完全相同,而且一定浓度的定量铬后污水只有同定量的电解污泥混合后,才能反应完全.现通过试验,找出铬后污水用量与电解污泥用量之比对于铬后污水浓度之间的关系.(spssex/例子9)
曲线回归 • Analyze->regression->curve estimation • Linear: y=b0+b1x • Quadratic: y= b0+b1x+b2x2 • Compound: y=b0b1x • Growth: y=e(b0+b1x) • Logarithmic: y= b0+b1lnx • Cubic: y= b0+b1x+b2x2+b3x3
S: y=e(b0+b1/x) • Exponential: y=b0eb1x • Inverse: y=b0+b1/x • Power: y=b0xb1 • Logistic: y=1/(1/u+b0b1x))
界面详解 Curve Estimation过程中有特色的对话框界面内容如下:
【Dependent框】 用于选入曲线拟和中的应变量,可选入多个,如果这样,则对各个应变量分别拟合模型。 【Independent单选框组】 用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也可以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。
实例操作 例: 锡克试验阴性率(%)随着年龄的增长而增高,某地查得儿童年龄(岁)X与锡克试验阴性率Y的资料如下,试拟合曲线。 年龄(岁) 锡克试验阴性率(%) 1 57.1 2 76.0 3 90.9 4 93.0 5 96.7 6 95.6 7 96.2
首先对年龄和阴性率作散点图,发现两者有斜率逐渐放缓的曲线趋势,因此选择二次曲线模型、三次曲线模型和对数曲线模型,最终取其中结果最优者,做法如下:首先对年龄和阴性率作散点图,发现两者有斜率逐渐放缓的曲线趋势,因此选择二次曲线模型、三次曲线模型和对数曲线模型,最终取其中结果最优者,做法如下: • Analyze==>Regression==>Curve estimation • Dependant框:选入阴性率 • Independant框:选入年龄 • Models复选框组:选择Quadratic、Curbe、Logarithmatic,取消对Liner的选择。 • 单击OK
上表给出了所拟合的三个模型的检验报告,包括拟合优度、模型的检验结果和各个系数值,从检验结果看,三个模型均有统计学意义,但从拟合优度看,三次方曲线的拟合优度最高,似乎应选择三次方曲线,但注意三次方曲线多一个参数,要复杂一些,而它的拟合优度和二次方曲线相差不大,因此仅从这里的结果还不好对它们两者作出判断,还要看看模型曲线的情况。上表给出了所拟合的三个模型的检验报告,包括拟合优度、模型的检验结果和各个系数值,从检验结果看,三个模型均有统计学意义,但从拟合优度看,三次方曲线的拟合优度最高,似乎应选择三次方曲线,但注意三次方曲线多一个参数,要复杂一些,而它的拟合优度和二次方曲线相差不大,因此仅从这里的结果还不好对它们两者作出判断,还要看看模型曲线的情况。
上图是三个模型曲线和实际值连线的情况,可见在4岁以前,二次方和三次方曲线对模型的拟合相差不大,4岁以后三次方曲线则要明显优于二次方曲线,但我们的观察值只有7例,样本量太少,在曲线回归中,模型的简洁性和拟合优度的高低同样重要,拟合优度太高的模型往往对新样本的拟合度较差,在这种情况下选择参数较少的模型为宜,因此最终选择二次方曲线模型。 。
非线性 美国一家连锁快餐店曾请人对了有其分店的25个社区进行随机抽样,每个社区大约有5000户居民,获取了包括分店年销售额和社区年户均收入的数据。
例7.4灵峰机械厂是一家小型企业,它为电动摩托车加工车轴。车轴上一条槽线需要使用铣床加工。一台铣床被指定加工轴槽。加工一批,随后检验,凡不符合公差要求的工件一律淘汰。由于加工作业对铣刀头有所磨损,每加工出一批工件,就需要调整铣刀。每批工件数量不等,差出的次品数也不等。工长希望能确定一个最佳批量。这需要知道次品数与工件批量有什么关系。为此从以往生产记录中随机抽取了30批作为样本,例7.4灵峰机械厂是一家小型企业,它为电动摩托车加工车轴。车轴上一条槽线需要使用铣床加工。一台铣床被指定加工轴槽。加工一批,随后检验,凡不符合公差要求的工件一律淘汰。由于加工作业对铣刀头有所磨损,每加工出一批工件,就需要调整铣刀。每批工件数量不等,差出的次品数也不等。工长希望能确定一个最佳批量。这需要知道次品数与工件批量有什么关系。为此从以往生产记录中随机抽取了30批作为样本,
Curve Estimation过程 Curve Estimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。
【Models复选框组】 • 是该对话框的重点,用于选择所用的曲线模型,可用的有: • Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同; • Quadratic:拟合二次方程Y = b0+b1X+b2X2; • Compound:拟合复合曲线模型Y = b0×b1X; • Growth:拟合等比级数曲线模型Y = e(b0+b1X); • Logarithmic:拟合对数方程Y = b0+b1lnX; • Cubic:拟合三次方程Y = b0+b1X+b2X2+b3X3; • S:拟合S形曲线Y = e(b0+b1/X); • Exponential:拟合指数方程Y = b0 eb1X; • Inverse:数据按Y = b0+b1/X进行变换; • Power:拟合乘幂曲线模型Y = b0X b1; • Logistic:拟合Logistic曲线模型Y = 1/(1/u + b0×b1X),如选择该线型则要求输入上界。
【Include constant in equation复选框】 确定是否在方程中包含常数项。 【Plot models复选框】 要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。 【save钮】 弹出SAVE对话框,用于定义想要存储的中间结果,如预测值、预测值可信区间、残差等。 【Display ANOVA table复选框】 要求显示模型检验的方差分析表。