420 likes | 688 Views
第 3 章 应用回归分析. 3.1 回归分析的步骤. 第 3 章 应用回归分析. 3.1 回归分析的步骤 3.2 回归分析实例:餐厅选址. 第 4 章 古典模型. 只有满足一些假设后 ,OLS 才是最优估计方法 . 古典模型指满足上述假设的模型. 4.1 古典假设 : 假设 1. 回归模型是线性的 , 模型设定无误且含有误差项. 假设 2 误差项 总体均值为零 E( )=0 i=1,2, …,n
E N D
第3章 应用回归分析 3.1 回归分析的步骤
第3章 应用回归分析 3.1回归分析的步骤 3.2 回归分析实例:餐厅选址
第4章 古典模型 只有满足一些假设后,OLS才是最优估计方法. 古典模型指满足上述假设的模型.
4.1古典假设: 假设1.回归模型是线性的,模型设定无误且含有误差项.
假设2 误差项总体均值为零 E( )=0 i=1,2, …,n 误差项的零均值是指模型中不含的并归属 的因素,对Y的均值都没有系统影响;正的 值抵销了负的 值,以至于它们对Y的平均值影响为零。 在方程中加上常数项可以迫使任何回归中的 的均值为零.P53 一个例子
假设3 所有解释变量与误差项都不相关. 误差项与解释变量不相关,误差项本身是独立于解释变量之外的,且如果误差项与解释变量存在相关,则不能独自说明其作用 例如,如果解释变量与误差项正相关,估计的回归系数可能大于没有正相关时的系数估计.因为OLS估计程序会错误地把由误差项引起的Y的变异归因于X. 具有联立属性的模型将违背此假设.
假设4 误差项的观察值互不相关 误差项之间互不相关意味着Y的决定与它期的误差项无关,即不存在 (t-k)决定 (t)从而决定Y的情况,否则误差项称为序列相关.
假设5 误差项具有同方差 误差项的同方差性同时也意味着Y的同方差性,即随着x的变动,Y的取值分布是一定的,是分布不变的。
储蓄Y 储蓄Y 密度 密度 收入X 收入X 同方差和异方差的图形表示 (B) (A)
假设6任何一个解释变量都不是其他解释变量的完全线性函数.完全多重共线性:不完全多共线性:例子:假设研究城市轮胎销售店的利润模型:若选择自变量为:每个商店的年轮胎销售量和每个商店的年销售税,则面临完全多重共线性.假设6任何一个解释变量都不是其他解释变量的完全线性函数.完全多重共线性:不完全多共线性:例子:假设研究城市轮胎销售店的利润模型:若选择自变量为:每个商店的年轮胎销售量和每个商店的年销售税,则面临完全多重共线性.
假设7 误差项服从正态分布 正态性假设并非OLS估计所要求,主要应用于假设检验中.
当无偏与最小方差无法同时满足时,如何取舍? 均方差:对不同估计技术进行比较 MSE均方误=方差+偏差平方 MSE越低,效果越好. P58:图4-4
4.3 高斯-马尔可夫定理和OLS估计量的性质 在给定6个经典假设之下,OLS估计量在所有线性无偏一类估计量中,有最小方差。称之为最优线性无偏估计量. BLUE-Best Linear Unbiasedness Estimator 有最小方差的无偏估计量叫做有效估计量(efficient estimator)
全部估计量 线性无偏估计量 线性无偏估计量 BLUE估计量 BLUE估计量 BLUE估计量的图形表示
正态性假定 • 我们不仅要用OLS法做点估计,我们还要进行假设检验(hypothesis testing),即对系数的真值做出推断,而这需要误差项的概率分布。 • 从干扰项的概率分布------估计量的概率分布----------系数真值的统计推断
为何是正态分布而不是其他? 原因1:中心极限定理证明,如果存在大量独立且相同分布的随机变量,那么,除了少数例外情形,随着这些变量的个数无限的增大,它们的总和将趋向于正态分布 原因2:中心极限定理的另一解说是,即使变量个数并不是很大或这些变量还不是严格独立的,它们的总和仍可视为正态分布 随机项的性质
由于正态性假定而新增的性质 1、系数估计量也是服从正态分布的(根据系数估计量是Y的线性函数,而Y又是误差项的线性函数) 2、OLS的系数估计量在整个无偏估计量中,无论是线性的还是非线性的估计,都有最小方差,所以我们说最小二乘估计量是最优无偏估计量(BUE)
由于正态性假定而新增的性质 3、随着样本容量无限地增大,系数估计量将收敛于它们的真值(一致性)
4.4 标准计量经济学符号 • P60
虚拟变量 一、虚拟变量模型 • 虚拟变量(dummy variable):在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 • 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
1.包含一个虚拟变量的模型 加法模型: 例建立模型研究中国妇女在工作中是否受到歧视 设有模型, 其中Y为年薪,X为工作年限,D为定性变量。当D = 0 时表示男性,当D=1时表示女性。
D = 1 D =0 B0+B2 B0
注意: • 若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 • 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 • 定性变量中取值为0所对应的类别称作基础类别(base category)。
若区别男女两类的不同,引入两个虚拟变量,则会导致完全共线性。假定有一个样本,该样本包括三个男性,两个女性,其数据矩阵如下: C D1 D2 X男 1 1 0 X1男 1 1 0 X2女 1 0 1 X3男 1 1 0 X4女 1 0 1 X5所以D1=1-D2,D1与D2完全共线。
情形1(不同类别数据的截距和斜率不同) 情形2(不同类别数据的截距和斜率不同)
2.包含多个虚拟变量的模型 研究本科生、研究生和MBA毕业生的初职月薪有何差异?Y:初职月薪,
习题 • 2,3,4,5 • 课后1,6,7,9 ,10