本节课内容
This presentation is the property of its rightful owner.
Sponsored Links
1 / 45

本节课内容 PowerPoint PPT Presentation


  • 103 Views
  • Uploaded on
  • Presentation posted in: General

本节课内容. MLE 的性质 MLE 很流行是因为 MLE 有一些很好的性质. MLE 的性质. MLE 的一些性质( 为参数的真值) 一致性: 同变 性:若 是 的 MLE ,则 是 的 MLE 渐近正态: 渐近有效 / 最优:在所有的无偏估计中, MLE 的方差最小 近似于贝叶斯估计(在贝叶斯推理部分讲述) 这些只在满足 正则条件 下成立,正则条件度量 的平滑性。. MLE 的一致性.

Download Presentation

本节课内容

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5695144

本节课内容

  • MLE的性质

    • MLE很流行是因为MLE有一些很好的性质


5695144

MLE的性质

  • MLE的一些性质( 为参数的真值)

    • 一致性:

    • 同变性:若 是 的MLE,则 是 的MLE

    • 渐近正态:

    • 渐近有效/最优:在所有的无偏估计中,MLE的方差最小

    • 近似于贝叶斯估计(在贝叶斯推理部分讲述)

  • 这些只在满足正则条件下成立,正则条件度量 的平滑性。


5695144

MLE的一致性

  • 一致性: 依概率收敛于真值 ,即

  • 为了证明这一性质,引入KL散度/KL距离


5695144

相对熵:KL散度

  • 若f和g为两个pdf,它们之间的KL散度/距离(Kullback-Leibler Divergence)定义为

  • KL散度的性质

    • 通常情况下

  • 我们用 来表示


Identifiability

可识别性(Identifiability)

  • 如果 意味着 ,我们说模型 是可识别的

  • 这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。

  • 连续型分布通常是可识别的,而离散型分布有时是不可识别的。


Mle minimizing kl divergence

MLE = Minimizing KL Divergence

令 表示 的真值。极大化 等价于极大化:

相对 是一个常数。


5695144

MLE的一致性

  • 根据大数定律, 收敛于

  • ,在 时取极大值

    • 因为 ,且当 时,

  • 因此 ,在 时取极大值

    • 根据MLE的定义,当 时, 取极大值

    • 所以可以猜测MLE是一致估计:


5695144

MLE的一致性

  • 9.13 定理:令 表示的真实值,定义

  • 假设

  • 并且对任意

  • 令 表示极大似然估计,则


5695144

MLE的同变性

  • 等价性:令 是 的一个一一映射函数。令 是 的MLE,则 是 的MLE。

  • 证明:令 表示函数g的反函数,则

  • 对 ,有

  • 其中 。

  • 则 ,有


5695144

MLE的等价性

  • 例9.15:令 ,

  • 则 的MLE为

  • 令 ,则 的MLE为

随机变量变换的MLE的点估计


5695144

MLE的渐近正态性

  • 渐近正态性:

    • 可以给出渐进方差

  • 为了证明这一性质,引入记分函数和Fisher信息

  • 当记分函数和Fisher信息的形式比较简单时,可解析求解

  • 若解析计算困难,可用参数bootstrap方法计算


Fisher

Fisher信息

  • 记分函数(score function)定义为

    • 用来估计θ

  • Fisher信息定义为

    • 告诉记分数里包含了θ 的多少信息

Sir Ronald Aylmer Fisher

(1890-1962)


5695144

记分函数 vs. 似然函数

  • 再定义一个总记分函数:记分函数在样本上的和

  • 似然函数为

  • 所以

  • 即总记分函数为似然函数的一阶导数,表示似然函数的变化率

  • 对MLE,


5695144

记分函数的性质

  • 记分函数的期望为0:

  • 证明:


5695144

记分函数的性质

  • (1) 经验总记分函数为0:

  • (2) 总记分函数的期望为0:

    • 当与 和 匹配时,对 求期望才为0

    • 所以当总记分函数为0是的 会产生的一个一致估计


Fisher1

Fisher信息

  • 用于计算某个估计量的方差

    • 告诉了记分函数包含了的多少信息

  • Fisher信息:记分函数的方差

  • 其中 为当n= 1时的Fisher信息

容易计算


Fisher2

Fisher信息

  • 所以要证明

  • 转换为证明


Fisher3

Fisher信息

  • 二阶导数 度量了 的曲率

    • 即当变化时,似然函数的平滑程度

  • 曲率越大,信息越多

  • 信息越多,曲率越大(越不平滑/陡峭),MLE越确定,估计的方差越小


5695144

渐近正态性

  • 令 ,在满足合适的正则条件下,

  • 换句话说,

  • 用标准方差的估计值 代替se,该结论仍然成立,即

  • 因此对任意极大似然估计量,我们可以近似其置信区间。


5695144

渐近正态置信区间

  • 则当 时,

  • 即 为 置信区间。

  • 例: ,所以95%置信区间为


5695144

多维参数模型

  • 令 ,MLE为

  • 定义Fisher信息矩阵为

  • 为 的逆矩阵。


5695144

多维参数模型

  • 在合适的正则条件下,

  • 同时,若 为 的第j个成分,则

  • 其中 为矩阵 的第j个对角线上的元素

  • 和 的协方差近似为


Bernoulli

例:Bernoulli分布

  • 例9.20:令

  • 1、


Bernoulli1

例:Bernoulli分布(续)

  • 例9.20(续)

  • 2、

  • 3、95%置信区间为


5695144

例:正态分布

  • 例9.21:令

  • 1、


5695144

例:正态分布(续)

  • 例9.21(续)

  • 2、


5695144

例:正态分布(续)

  • 例9.21(续)

  • 2、


5695144

例:正态分布(续)

  • 例9.21(续)

  • 2、


5695144

MLE的最优性

  • 在所有的无偏估计中,MLE的方差最小

    • 渐近相对有效性


5695144

中值:

相对有效性

假设 ,则MLE为 。 θ的另一个合理的估计是样本的中值 。

MLE 满足

中值估计满足

  • 二者都收敛于正确值,但中值的方差更大。


5695144

相对有效性

  • 一般的,假设有两个估计 和 ,

  • U对T的渐近相对有效性(asymptotic relative efficiency)定义为 。

  • 在上述正态分布例子中, ,意味着中值估计只有效利用了63%的数据。

    • 但中值估计比均值估计更鲁棒

      • 鱼和熊掌不可兼得


5695144

MLE的最优性

  • 如果 为MLE,且为另一个估计,则

  • 因此MLE的(渐近)方差最小,我们称之为MLE是有效的或是渐近最优的。

  • 注意:所有的结果都是在基于模型是正确的基础之上预测的。

    • 如果模型不正确,MLE不一定是最优的


Delta

Delta方法

  • 令 ,其中g为一个平滑函数,

  • 根据MLE的同变性, 的MLE为

  • Delta方法的问题: 的分布?


Delta1

Delta方法

  • 若 ,其中g为可微函数,且

  • 其中

  • 所以若

  • 则当 时,


Delta2

Delta方法

  • 例9.25:设

  • Fisher信息函数是

  • MLE 的标准差是

  • 的MLE是

  • 由于 ,根据delta方法

  • 所以,95%置信区间是


Delta3

多维参数模型的Delta方法

  • 令 ,g的导数为

  • 假设 ,令 ,则

  • 其中 , ,


Delta4

例:多维参数模型的Delta方法

  • 9.29例:令

  • 则MLE为


5695144

其他一些与MLE相关的主题

  • MLE vs. 贝叶斯(贝叶斯推断)

  • MLE与最小二乘法(回归)

  • MLE假设统计模型为参数模型,模型假设的正确性检验

    • 非形式化的,可画出数据的分布图(如直方图)

      • 如有多个峰,则假设正态分布就有问题

    • 形式化:假设检验

      • 拟合优度检验 (goodness-of fit test)


5695144

下节课内容

  • MLE的迭代计算

    • 牛顿法

    • EM算法

  • 作业

    • Chp9:第2、3、4、7、9题


  • Login