770 likes | 939 Views
预备知识 1 :线性模型. 二元回归模型. 矩阵形式. 最小二乘估计( ordinary least squares,OLS ). 估计量 估计量方差 其中 . 总平方和 回归平方和 为预测值 残差平方和 判定系数( coefficient of determination ) R squared 调整 R squared. f i. 广义最小二乘( generalized least- squares,GLS ).
E N D
预备知识1:线性模型 • 二元回归模型
最小二乘估计(ordinary least squares,OLS) • 估计量 • 估计量方差 其中
总平方和 • 回归平方和 为预测值 • 残差平方和 • 判定系数(coefficient of determination)R squared • 调整R squared fi
广义最小二乘(generalized least-squares,GLS) • 如果 这里 为已知协方差矩阵 • 估计量 • 方差
预备知识2:固定效应模型 • 可加效应模型
方差分析( analysis of variance, ANOVA) 假设 偏差平方和的分解
方差分析 假设 偏差平方和的分解
方差分析 假设
预备知识3:三大检验 • 似然比检验LR • Wald检验 • 拉格朗日乘子检验LM
三大检验的引入 • (1)模型是非线性的 • (2)约束是非线性的 • (3)扰动项分布是非正态的, • 在这些情况下,F检验不再适用,通常需要采用LR、Wald、LM其中之一来检验约束条件是否成立。
三大检验方法共同点 • 这三个检验方法都是渐进等价的,他们所用统计量的小样本分布是未知的,但大样本下都渐进服从自由度为约束个数的卡方分布。 • 三大检验方法是三种基于极大似然法的大样本检验方法。 • 根据模型的特点采用不同的检验方法。 • 模型视为给定参数的数据生成过程的集合。
极大似然估计(ML) (一)极大似然原理 假设对于给定样本 , 其联合概率分布存在 。将该联合概率密度函数视为未知参数 的函数,则称为似然函数(Likelihood Function), 即观测到所给样本的可能性. 极大似然原理就是寻找未知参数 的估计,使得似然函数达到最大,或者说寻找使得样本出现的概率最大的。
求极大似然函数估计值的一般步骤:(1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程
极大似然估计,是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。极大似然估计,是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
极大似然估计量(MLE)的性质 (1)一致性: 是 的一致估计量,即 (2)渐进有效性: 是渐进有效的且达到所有一致估计量的Cramer-Rao下界,即是所有一致渐进正态估计量中方差最小的 (3)渐进正态性
似然比检验(LR) 检验思想:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量
似然比检验(LR) 1、似然比 命题: 如果约束是无效的,有约束的最大似然函数值当然不会超过无约束的最大似然函数值,但如果约束条件“有效”,有约束的最大值应当“接近”无约束的最大值,这正是似然比检验的基本思路。 似然比: 无约束模型似然函数值: 有约束模型似然函数值:
显然 。如果原假设是真,则 趋近于1;如果 太小,则约束无效,拒绝原假设。 可以证明,对大样本来说,检验统计量为, 拒绝域, 似然比检验另一种表达,
Wald检验 检验思想:如果约束是有效的,那么在没有约束情况下估计出来的估计量应该渐进地满足约束条件,因为MLE是一致的。 以无约束估计量为基础可以构造一个Wald统计量,这个统计量也服从卡方分布
Wald检验 • 如果约束条件为真,则 不应该显著异于零,其中 是无约束极大似然估计值。当 显著异于零时,约束条件无效,拒绝原假设。检验统计量。 Wald检验实际基于g( β )和C之间的距离。 Wald只需要估计无约束模型,但需要计算渐进协方差矩阵。
在线性约束条件下, Wald检验 拒绝域, Wald统计量另一种表达形式,
拉格朗日乘子检验(LM) 检验思想:在约束条件下,可以用拉格朗日方法构造目标函数。如果约束有效,则最大化拉格朗日函数所得估计量应位于最大化无约束所得参数估计值附近。 这里也是构造一个LM统计量该统计量服从卡方分布。
拉格朗日乘子检验(LM) 拉格朗日乘子检验(LM),又称为Score检验。该检验基于约束模型,无需估计无约束模型。 假设约束条件为 ,在约束条件下最大化对数似然函数,另 表示拉格朗日乘子向量,此时,拉格朗日函数为 约束条件下最大化问题就是求解下式根,
如果约束成立,对数似然函数值不会有显著变化。这就意味着在一阶条件下,第二项应该很小,特别是 应该很小。因此,约束条件是否成立检验转化成检验 ,这就是拉格朗日乘子检验的思想。 但是直接检验 比较困难,有一个等价而简单的方法。如果约束条件成立,在约束估计值处计算对数似然函数的导数应该近似为零,如果该值显著异于零,则约束条件不成立,拒绝原假设。 对数似然函数的导数就是得分向量,因此,LM检验就是检验约束条件下参数估计值的得分向量值是否显著异于零,因而,LM检验又称为得分检验。
在最大似然估计过程中,通过解似然方程 ,可以求出无约束估计量 ;如果计算有约束估计量 在此处得分,则 一般不为零,但是如果约束有效,则 趋近于零。 在原假设成立条件下,
对于线性约束 将有关量代入上式得, 拒绝域,
LM统计量另一种表达形式, LR、 Wald 、LM关系(一般情况下成立):
对于似然比检验,既需要估计有约束的模型,也需要估计无约束的模型;对于Wald检验,只需要估计无约束模型;对于LM检验,只需要估计有约束的模型。一般情况下,由于估计有约束模型相对更复杂,所有Wald检验最为常用。对于小样本而言,似然比检验的渐进性最好,LM检验也较好,Wald检验有时会拒绝原假设,其小样本性质不尽如人意。对于似然比检验,既需要估计有约束的模型,也需要估计无约束的模型;对于Wald检验,只需要估计无约束模型;对于LM检验,只需要估计有约束的模型。一般情况下,由于估计有约束模型相对更复杂,所有Wald检验最为常用。对于小样本而言,似然比检验的渐进性最好,LM检验也较好,Wald检验有时会拒绝原假设,其小样本性质不尽如人意。
多层线性 模型 hierarchical linear model (HLM)
概念 • 分层线性模型(hierarchical linear model HLM)又名多层线性模型 (Multilevel Linear Model MLM)、层次线性模型(Hierarch Linear Mode1)、多层分析(Multilevel Analysis/Model)。 • HLM又被通俗的称为“回归的回归”。 • 一般线性回归和多重线性回归都是发生在单一层面,HLM相对于更适用于嵌套数据(nest data)。”
假设 • 由于个体行为不仅受个体自身特征的影响,也受到其所处环境(群体/层次)的影响。 • 相对于不同层次的数据,传统的线性模型在进行变异分解时,对群组效应分离不出,而增大模型的误差项。 • 而且不同群体的变异来源也可能分布不同,可能满足不了传统回归的方差齐性假设。在模型应用方面,不同群体(层次)的数据,也不能应用同一模型。 • 鉴于传统方法的局限性,分层技术则解决了这些生态谬误(Ecological Fallacy)。
两个层面的假设: • 个体层面:这个与普通的回归分析相同,只考虑自变量X对因变量Y的影响。 • 群组层面:群组因素W分别对个体层面中回归系数和截距的影响。
数学模型: • 个体层面: • 群组层面: • 涉及到多个群组层次的时候原理与之类似,可以把较低级层次的群组,如不同的乡镇层面与不同的县市层面,可以这样理解,乡镇即是一个个体,群组即是不同的县市。 • 更多层次的可以这样理解,一直是下一层对上一层回归系数和截距的回归。 • 与普通的“回归的回归”不同的是,整个计算过程通过迭代过程完成。