本节课内容

本节课内容 • MLE的性质 • MLE很流行是因为MLE有一些很好的性质

MLE的性质 • MLE的一些性质（为参数的真值） • 一致性： • 同变性：若是的MLE，则是的MLE • 渐近正态： • 渐近有效/最优：在所有的无偏估计中，MLE的方差最小 • 近似于贝叶斯估计（在贝叶斯推理部分讲述） • 这些只在满足正则条件下成立，正则条件度量的平滑性。

MLE的一致性 • 一致性：依概率收敛于真值，即 • 为了证明这一性质，引入KL散度/KL距离

相对熵：KL散度 • 若f和g为两个pdf，它们之间的KL散度/距离(Kullback-Leibler Divergence)定义为 • KL散度的性质 • 通常情况下 • 我们用来表示

可识别性(Identifiability) • 如果意味着，我们说模型是可识别的 • 这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。 • 连续型分布通常是可识别的，而离散型分布有时是不可识别的。

MLE = Minimizing KL Divergence 令表示的真值。极大化等价于极大化：相对是一个常数。

MLE的一致性 • 根据大数定律，收敛于 • ，在时取极大值 • 因为，且当时， • 因此，在时取极大值 • 根据MLE的定义，当时，取极大值 • 所以可以猜测MLE是一致估计：

MLE的一致性 • 9.13 定理：令表示的真实值，定义 • 且 • 假设 • 并且对任意 • 令表示极大似然估计，则

MLE的同变性 • 等价性：令是的一个一一映射函数。令是的MLE，则是的MLE。 • 证明：令表示函数g的反函数，则 • 对，有 • 其中。 • 则，有

MLE的等价性 • 例9.15：令， • 则的MLE为 • 令，则的MLE为随机变量变换的MLE的点估计

MLE的渐近正态性 • 渐近正态性： • 可以给出渐进方差 • 为了证明这一性质，引入记分函数和Fisher信息 • 当记分函数和Fisher信息的形式比较简单时，可解析求解 • 若解析计算困难，可用参数bootstrap方法计算

Fisher信息 • 记分函数(score function)定义为 • 用来估计θ • Fisher信息定义为 • 告诉记分数里包含了θ 的多少信息 Sir Ronald Aylmer Fisher (1890-1962)

记分函数 vs. 似然函数 • 再定义一个总记分函数：记分函数在样本上的和 • 似然函数为 • 所以 • 即总记分函数为似然函数的一阶导数，表示似然函数的变化率 • 对MLE，

记分函数的性质 • 记分函数的期望为0： • 证明：

记分函数的性质 • (1) 经验总记分函数为0： • (2) 总记分函数的期望为0： • 当与和匹配时，对求期望才为0 • 所以当总记分函数为0是的会产生的一个一致估计

Fisher信息 • 用于计算某个估计量的方差 • 告诉了记分函数包含了的多少信息 • Fisher信息：记分函数的方差 • 其中为当n= 1时的Fisher信息容易计算

Fisher信息 • 所以要证明 • 转换为证明

Fisher信息 • 二阶导数度量了的曲率 • 即当变化时，似然函数的平滑程度 • 曲率越大，信息越多 • 信息越多，曲率越大（越不平滑/陡峭），MLE越确定，估计的方差越小

渐近正态性 • 令，在满足合适的正则条件下， • 换句话说， • 用标准方差的估计值代替se，该结论仍然成立，即 • 因此对任意极大似然估计量，我们可以近似其置信区间。

渐近正态置信区间 • 令 • 则当时， • 即为置信区间。 • 例：，所以95%置信区间为

多维参数模型 • 令，MLE为 • 则 • 定义Fisher信息矩阵为 • 为的逆矩阵。

多维参数模型 • 在合适的正则条件下， • 同时，若为的第j个成分，则 • 其中为矩阵的第j个对角线上的元素 • 和的协方差近似为

例：Bernoulli分布 • 例9.20：令 • 1、

例：Bernoulli分布（续） • 例9.20（续） • 2、 • 3、95%置信区间为

例：正态分布 • 例9.21：令 • 1、

例：正态分布（续） • 例9.21（续） • 2、

MLE的最优性 • 在所有的无偏估计中，MLE的方差最小 • 渐近相对有效性

中值： 相对有效性假设，则MLE为。 θ的另一个合理的估计是样本的中值。 MLE 满足中值估计满足 • 二者都收敛于正确值，但中值的方差更大。

相对有效性 • 一般的，假设有两个估计和 , • 且 • U对T的渐近相对有效性(asymptotic relative efficiency)定义为。 • 在上述正态分布例子中，，意味着中值估计只有效利用了63%的数据。 • 但中值估计比均值估计更鲁棒 • 鱼和熊掌不可兼得

MLE的最优性 • 如果为MLE，且为另一个估计，则 • 因此MLE的（渐近）方差最小，我们称之为MLE是有效的或是渐近最优的。 • 注意：所有的结果都是在基于模型是正确的基础之上预测的。 • 如果模型不正确，MLE不一定是最优的

Delta方法 • 令，其中g为一个平滑函数， • 根据MLE的同变性，的MLE为 • Delta方法的问题：的分布？

Delta方法 • 若，其中g为可微函数，且 • 则 • 其中 • 所以若 • 则当时，

Delta方法 • 例9.25：设 • Fisher信息函数是 • MLE 的标准差是 • 的MLE是 • 由于，根据delta方法 • 所以，95%置信区间是

多维参数模型的Delta方法 • 令，g的导数为 • 假设，令，则 • 其中，，

例：多维参数模型的Delta方法 • 9.29例：令 • 则MLE为

其他一些与MLE相关的主题 • MLE vs. 贝叶斯（贝叶斯推断） • MLE与最小二乘法（回归） • MLE假设统计模型为参数模型，模型假设的正确性检验 • 非形式化的，可画出数据的分布图（如直方图） • 如有多个峰，则假设正态分布就有问题 • 形式化：假设检验 • 拟合优度检验 (goodness-of fit test)

下节课内容 • MLE的迭代计算 • 牛顿法 • EM算法 • 作业 • Chp9：第2、3、4、7、9题

本节课内容

本节课内容

Presentation Transcript