第 8 章

第8章 二值因变量回归模型

二值因变量回归模型 8.1 二值因变量模型 8.1.1 效用理论和指标模型 8.1.2 probit模型和logit模型 8.2 二值因变量模型估计 8.2.1 二值因变量模型极大似然估计 8.2.2 用EViews7.2估计二值因变量模型重要概念

8.1 二值因变量模型 8.1.1 效用理论和指标模型 8.1.2 probit模型和logit模型

8.1 二值因变量模型 8.1.1 效用理论和指标模型因变量只取0和1的模型称为二值因变量（binary dependent variable）模型。模型因变量没有明显的数量特征，往往对应研究对象的不同属性，属于分类变量。例：女性决定投入劳动力市场还是做家务的影响因素、投资人决定是风险投资还是无风险投资的决定因素、哪些财务指标决定着上市公司财务状况（正常或恶化）、股票涨跌的影响因素。

8.1 二值因变量模型 8.1.1 效用理论和指标模型以投资决策为例，表示购买股票，表示银行存款表示投资股票的收益，表示投资风险需要研究的是的变化如何影响投资决策变化，即投资倾向（或者意愿）的变化。可观测，但观测不到投资者投资意愿的变化，只会观测到或者。

8.1 二值因变量模型 8.1.1 效用理论和指标模型以投资决策为例，表示购买股票，表示银行存款表示投资股票的收益，表示投资风险 • 设表示投资者的效用函数，不可观测，其与自变量关系式：假定大于临界值时，投资者购买股票，则

8.1 二值因变量模型 8.1.1 效用理论和指标模型设的分布函数为，并且满足称为连接函数（link function），线性函数称为指标函数（index）。

8.1 二值因变量模型 8.1.1 效用理论和指标模型 • 定义1：设为二值因变量，为自变量，称模型为二值因变量模型，其中为分布函数，满足。 • 二值因变量模型不是回归模型，没有误差项。内生性异方差等问题需对原模型讨论。 • 二值因变量模型中的不可观测，模型不能用最小二乘估计。参数估计有赖于对的假设。

8.1 二值因变量模型 8.1.2 probit模型和logit模型 probit模型假设连接函数为标准正态分布的分布函数 • 实际上等价于假定了服从标准正态分布；若的方差未定，则参数不能被唯一估计。

8.1 二值因变量模型 8.1.2 probit模型和logit模型 logit模型假设连接函数为逻辑分布函数 • logit模型中的连接函数是一种特殊的逻辑分布，目的是保证模型中参数能够唯一确定。

proitt 1 0.5 logit 0 8.1 二值因变量模型 8.1.2 probit模型和logit模型 probit模型和logit模型的比较 • 大多数情况下二者估计结果相似 • 值较大时，正态分布函数对的敏感性较低，logit模型可以缓解这种现象

8.1 二值因变量模型 8.1.2 probit模型和logit模型 probit模型和logit模型的比较 logit模型可变换为 • 若能得到的一致估计，就能用OLS方法估计上述模型参数。

8.2 二值因变量模型估计 8.2.1 二值因变量模型极大似然估计 8.2.2 用EViews7.2估计二值因变量模型

8.2 二值因变量模型估计 8.2.1 二值因变量模型极大似然估计

二值因变量模型极大似然估计 极大似然估计样本似然函数

二值因变量模型极大似然估计 对数似然函数 • 对上述函数求分别关于、和求导就可求得参数估计；但是该函数通常太过复杂，一般用数值方法求得参数估计。

二值因变量模型极大似然估计 参数估计的渐近分布 • 由第2章结论8知，上述参数的极大似然估计、和渐进服从正态分布，即 • 故可构造以下统计量检验

二值因变量模型极大似然估计 拟合优度、似然比和McFadden • 由于因变量取值的特殊性，二值因变量模型不再用来度量模型拟合的好坏，而采用似然比（likely ratio）和似然比指数（likelihood ratio index）对模型拟合效果进行评价。例：检验首先进行不受限极大似然估计，得参数估计再进行原假设限制下的极大似然估计，得参数估计

二值因变量模型极大似然估计 拟合优度、似然比和McFadden • 例：检验似然比（LR）统计量：原假设成立时服从。 McFadden 为对应的对数似然函数值。

二值因变量模型极大似然估计 probit模型和logit模型的估计 • 依前面给出的对数似然函数做最大似然估计，如logit模型做完估计后可以对单个参数显著性或者模型的拟合效果进行检验，统计量上面已经给出。

二值因变量模型极大似然估计 完全分离（complete separation）及其处理 • 定义2. 设为样本，如果存在线性组合和常数C使得称样本存在完全分离。 • 如果存在这种情况，则相应地增大的值会不断增加对数似然函数的值，因此将没有最大值点。

二值因变量模型极大似然估计 完全分离（complete separation）及其处理 • 出现完全分离的原因： 1.因变量几乎全部取1（或者0），取0（或者1）的样本太少，解决的办法是增加取0的样本，或者减少取1的样本。 2.自变量太多，容易找到线性组合将数据完全分离，解决方法是去掉一些自变量。

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型 • EViews操作 • 与其他回归模型的估计操作类似，只需在模型估计（Equation Estimation）窗口的估计设定（Estimation Setting）中从估计方法（Method:）中选择BINARY-Binary Choice (logit, probit, extreme value)，然后选择模型类型Binary estimation method Probit Logit，然后点击Option选项，对数值方法、初始值和收敛准则进行选择，完成设置。

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型 • EViews操作 • 二值因变量模型采用极大似然估计，对数似然函数的极大化采用数值解法，需要对数值解法采用的方法（Optimization algorithm）进行选择。EViews 提供了三种算法：Quadratic Hill Climbing、Newton-Raphson、Berndt-Hall-Hall-Hausman

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型 • EViews操作 • 还可以对参数估计方差的计算方法进行选择，在Option窗口中的Covariance框下勾选Robust Covariances，可选Hubert/White或者GML方法。 • 对迭代控制（Iteration control）也可选选填最大迭代次数（Max）和收敛公差（Convergence：） • Options窗口右下角为二值因变量模型中指标函数求导设置（Derivatives（for index）），可选Accuracy或者Speed

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型 • EViews操作

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型 • 估计结果解释 • 表示自变量的变化对概率的影响，与一般线性模型不一样的是，此处它的大小与自变量有关（一般在样本均值处衡量）。

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型 • 估计结果解释 probit模型和logit模型得出的结果不同

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型例子8.1 银行贷款违约概率 • 因变量：贷款人是否违约（，表示违约） • 自变量：资产负债率（）、流动比率（）、总债务/利税前收入（）、净资产收益率（）、销售（营业）利润率（），总资产周转率（）、流动资产周转率（）、销售(营业)增长率（）、资本积累率（）

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型例子8.1 银行贷款违约概率

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型例子8.1 银行贷款违约概率 • 若将所有自变量包括在内，回归结果如上，EViews 提示有完全分离的情况。 • 去掉部分自变量可以消除完全分离。经多次尝试，最终保留、、、、、和常数项作为解释变量，数值算法采用牛顿-拉夫森算法，参数估计的标准差和协方差计算采用Hubert/White方法

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型例子8.1 银行贷款违约概率

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型例子8.1 银行贷款违约概率 • 第一部分显示回归信息：采用二值因变量模型，选择Probit模型，并采用Newton-Raphson算法，15次迭代后收敛，用Hubert/White方法估计方差协方差矩阵 • 第二部分是参数估计，意义与一般参数估计一样 • 最下面一部分中McFadden R-squared和LR statistic给出前面的统计量。Log likelihood和Restr. log likelihood给出不受限和受限的对数似然值。

8.2 二值因变量模型估计 8.2.2 用EViews7.2估计二值因变量模型例子8.2 已婚妇女的劳动力市场参与

重要概念 1. 因变量取1和0时，需要用二值因变量模型。二值因变量模型可以从效用理论得到解释，用不可观测因变量和可观测因变量之间的关系建立模型，并用极大似然方法进行估计。二值因变量模型也称为限值因变量模型。 2.二值因变量模型中的连接函数，是不可观测变量回归模型误差项的分布函数，需要满足关于0的对称性。当取作标准正态分布函数和逻辑分布的分布函数时，对应的二值因变量模型分别称为probit模型和logit模型。 3. 二值因变量模型采用极大似然估计方法进行估计，并采用数值方法计算对数似然函数的最大值点和最大值。采用EViews估计模型时，可以选择不同的数值方法。二值因变量的拟合效果用McFadden 和似然比统计量来衡量。

重要概念 4. 在某些情况下，估计二值因变量模型的样本数据会出现完全分离的情况。造成完全分离的原因之一是因变量取1（或者0）的值太少，另一个原因是自变量太多或者选取不合适。出现完全分离时，模型无法估计或者估计结果不可信。去掉一些样本使因变量取1和0的样本数相当，能够消除完全分离。有时，去掉一些自变量也能有效消除完全分离。 5. 二值因变量模型是非线性模型，参数的含义不同于线性回归模型，在对估计结果的意义进行分析时需要格外注意。对同一问题既可以用probit模型进行分析，也可以用logit模型进行分析，大多数情况下两种模型所得结果一致。logit模型具有的优点使其在应用中采用的更多一些。

第 8 章

第 8 章

Presentation Transcript