730 likes | 968 Views
第三章 : 最大似然估计 & 贝叶斯参数估计. 介绍 贝叶斯框架下的数据收集 在以下条件下我们可以设计一个可选择的分类器 : P( i ) ( 先验 ) P(x | i ) ( 类条件密度 ) 不幸的是,我们极少能够完整的得到这些信息 ! 从一个传统的样本中设计一个分类器 先验估计不成问题 样本对于类条件密度估计太小了 ( 特征空间维数太大了 !). 1. 这个问题的一个先验信息 P(x | i ) 的正态性 P(x | i ) ~ N( i , i ) 用两个参数标示 估计
E N D
介绍 • 贝叶斯框架下的数据收集 • 在以下条件下我们可以设计一个可选择的分类器 : • P(i) (先验) • P(x | i) (类条件密度) 不幸的是,我们极少能够完整的得到这些信息! • 从一个传统的样本中设计一个分类器 • 先验估计不成问题 • 样本对于类条件密度估计太小了 (特征空间维数太大了!) 1
这个问题的一个先验信息 • P(x | i)的正态性 P(x | i) ~ N( i, i) • 用两个参数标示 • 估计 • 最大似然估计 (ML) 和贝叶斯估计 • 结果近似于独立, 但是方法是不同的 1
最大似然估计中的参数是固定的但是未知! • 通过最大化所观察的样本概率得到最优的参数 • 贝叶斯方法把参数当成服从已知分布的随机变量 • 在这两种方法中,我们用P(i | x)表示分类规则! 1
最大似然估计 • 当样本数目增加时,收敛性质会更好 • 比其他可选择的技术更加简单 • 一般的原理 • 假设有c类并且 P(x | j) ~ N( j, j) P(x | j) P (x | j, j) 当: 2
使用训练样本提供的信息估计 = (1, 2, …, c), 每个 i (i = 1, 2, …, c) 和每一类相关 • 假定D包括n个样本, x1, x2,…, xn • 的最大似然估计是通过定义最大化P(D | )的值 “值与实际观察中的训练样本最相符” 2
最优估计 • 令 = (1, 2, …, p)t并令 为梯度算子 the gradient operator • 我们定义 l() 为对数似然方程 l() = ln P(D | ) • 新问题陈述: 定义 为使对数似然最大的值 2
特殊情况的例子: 未知 • P(xi | ) ~ N(, ) (样本从一组多变量正态分布中提取) = ,因此: • 的最大似然估计必须满足: 2
乘 并且重新排序, 我们得到: 即训练样本的算术平均值! 结论: 如果P(xk | j) (j = 1, 2, …, c)被假定为d维特征空间中的高斯分布; 然后我们能够估计向量 = (1, 2, …, c)t从而得到最优分类! 2
最大似然估计: • 高斯例子: 未知 和 = (1, 2) = (, 2) 2
最后得到: 合并 (1) 和 (2), 得到如下方程: 2
偏差 • 2的最大似然估计是有偏的 • 的一个基本的无偏估计是: 2
附录: ML 问题陈述 • 令 D = {x1, x2, …, xn} P(x1,…, xn | ) = 1,nP(xk | ); |D| = n 我们的目标是终结 (的值使得这个样本变得最有代表性!) 2
|D| = n . . . . x2 . . x1 xn N(j, j) = P(xj, 1) P(xj | 1) P(xj | k) D1 x11 . . . . x10 Dk . Dc x8 . . . x20 . . x1 x9 . . 2
贝叶斯估计 (模式分类问题的贝叶斯) • 在最大似然估计中 被假定为固定值 • 在贝叶斯估计中 是随机变量 • 后验概率 P(i | x)的计算取决于贝叶斯分类的中心 • 目标:计算 P(i | x, D) 假设样本为D,贝叶斯方程可以写成: 3
贝叶斯参数估计: 高斯过程 目标:使用后验密度P( | D) 估计 • 普遍情况: P( | D) 是唯一未知参数 (0与 0未知!) 4
复制密度 将 (1) 与 (2)相加得到: 4
一种普遍的情况 P(x | D) • 计算得到P( | D) • P(x | D) 仍然需要计算得到! 由此可得: (期望得到的分类条件密度P(x | Dj, j)) 因此: 已知P(x | Dj, j) 和 P(j) 使用贝叶斯公式,我们得到贝叶斯分类准则: 4
贝叶斯参数估计:一般规则 • P(x | D) 的计算可应用于所有能参数化未知密度的情况中,基本假设如下: • 假定 P(x | ) 的形式未知,但是的值并不明确知道 • 被假定为满足一个已知的先验密度 P() • 除此以外, 包含在集合D中,其中D是由n维随机变量x1, x2, …, xn 表示的P(x)组成的集合 5
基本的问题是: “计算先验密度P( | D)” 然后 “推导出P(x | D)” 使用贝叶斯方程,我们得到: 然后由独立性假设: 5
维数问题 • 问题包括50或100个特征(二进制) • 分类精度取决于维数和训练样本的数量 • 有相同系数的两组多维向量情况 7
如果特征是独立的,则有: • 最有用的特征是均值差与标准方差严重相关 • 在实际观察中我们发现,考虑较多的特征会导致更糟糕的结果而不是好的结果: 我们的模型有误 7
7 7 7
计算的复杂性 • 我们设计的方法受到计算难度的影响 • “big oh” notation f(x) = O(h(x)) “big oh of h(x)” 如果: (An upper bound on f(x) grows no worse than h(x) for sufficiently large x!) f(x) = 2+3x+4x2 g(x) = x2 f(x) = O(x2) 7
“big oh” 并不是唯一的! f(x) = O(x2); f(x) = O(x3); f(x) = O(x4) • “big theta” notation f(x) = (h(x)) 如果: f(x) = (x2) but f(x) (x3) 7
最大似然估计的复杂性 • 首先考虑 高斯d 维分类器,c 类样本,每类有n个训练样本 • 对于每个分类,我们必须计算出辨别式函数 总和 = O(d2..n) c分类的总和 = O(cd2.n) O(d2.n) • 当d和n很大的时候会更费劲! 7
成分分析与辨别式 • 组合特征从而降低特征空间的维数 • 线形组合通常比较容易计算和处理 • 将高维数据投影到一个低维空间里去 • 使用两种分类方法寻找理想一点的线性传递 • PCA (主成份分析) “在最小均方误差意义下的数据的最优表示的映射” • MDA (多类判别分析) “在最小均方误差意义下的数据的最有分类的映射” 8
隐藏马尔可夫模型: • 马尔可夫链 • 目标: 建立一系列决策 • Processes that unfold in time, states at time t are influenced by a state at time t-1 • 应用: 语音识别, 姿势识别,部分语音追踪和DNA 排序 • 所有无记忆的随机过程 T = {(1), (2), (3), …, (T)} 为状态序列 我们可以得到 6 = {1, 4, 2, 2, 1, 4} • 这个系统能够再现不同阶段的状态而且不是所有的状态都需要巡视 10
一阶马尔可夫模型 • 所有序列的结果都由传递概率表示 P(j(t + 1) | i (t)) = aij 10
= (aij, T) P(T |) = a14 . a42 . a22 . a21 . a14 . P((1) = i) 例子:语音识别 “production of spoken words” Production of the word: “模式” 由音素表示 /p/ /a/ /tt/ /er/ /n/ // ( // = silent state) Transitions from /p/ to /a/, /a/ to /tt/, /tt/ to er/, /er/ to /n/ and /n/ to a silent state 10
隐性马尔可夫模型 (HMM) • 可视状态与隐藏状态的相互影响 bjk= 1 对所有 j 当 bjk=P(Vk(t) | j(t)). • 这个模型存在三个问题 • 估计问题 • 解码问题 • 学习问题
估计问题 该模型生产出一列可视状态VT是有可能的,即: 当每个r指示T个隐藏状态所组成的一组特殊序列
使用方程 (1) 和 (2), 我们能够写成: 例子:令 1, 2, 3为隐藏状态; v1, v2, v3为可视状态 V3 = {v1, v2, v3}为可视状态序列 P({v1, v2, v3}) = P(1).P(v1 | 1).P(2 | 1).P(v2 | 2).P(3 | 2).P(v3 | 3) +…+ (总的可能项数= 所有的可能性 (33= 27) 的情况 !)
v1 v2 v3 1 (t = 1) 3 (t = 3) 2 (t = 2) 第一概率: 第二概率: P({v1, v2, v3}) = P(2).P(v1 | 2).P(3 | 2).P(v2 | 3).P(1 | 3).P(v3 | 1) + …+ 因此: v1 v2 v3 2 (t = 1) 3 (t = 2) 1 (t = 3)
解码问题 (最优状态序列) 假设VT为可视状态序列,解码问题就是找出最有可能的隐藏状态序列 . 这个问题用数学的方式表示如下 : 找出单个的“最佳”状态序列 (隐藏状态) 注意最后的总和消失了,因为我们只想找到唯一的一个最佳情况
当: = [,A,B] = P((1) = ) (最初的状态概率) A = aij = P((t+1) = j | (t) = i) B = bjk = P(v(t) = k | (t) = j) 在之前的例子中,这些计算与最佳路径的选择一致: {1(t = 1),2(t = 2),3(t = 3)}, {2(t = 1),3(t = 2),1(t = 3)} {3(t = 1),1(t = 2),2(t = 3)}, {3(t = 1),2(t = 2),1(t = 3)} {2(t = 1),1(t = 2),3(t = 3)}
学习问题 (参数估计) 第三个问题涉及到找出一种方法调整模型参数 = [,A,B]使之满足一个特定的最优标准。我们需要找出最好的模型。 然后最大化可视序列的概率 : 我们使用一个迭代的过程比如Baum-Welch或者Gradient来得到一个最优解
第九章 独立于算法的机器学习 要点: 1. 列举了机器学习中的重要定理 2. 介绍了偏差和方差关系 3. 介绍了统计量估计中的重采样技术 4. 评价和比较了几种分类器 5. 介绍了组合分类器
9.1 引言 • 模式分类的方法哪一种最好? • 分类器的正确率的界限是什么?
9.2 没有天生优越的分类器 9.2.1 “没有免费的午餐定理”(No Free Lunch Theorem, NFL定理)结论: 不存在与“语境无关”或者与“应用无关”的任何理由认定某种学习或者分类算法比另一种好。 定理9.1(没有免费的午餐) 对于任意两个学习算法 和 ,以下尘数是正确的,并且与样本的分布 及训练点的个数 无关:
1.对所有的目标函数 求平均,有 2.对任意固定的训练集 ,对所有的 求平均,有 3.多所有先验只是 求平均,有 4.对任意固定的训练集 ,对所有的 求平均,有
图9-1表示定理9.1的第1部分可以推出的结果。6个方块表明了所有可能的分类问题,注意到这里并不是标准的特征空间。如果一个学习系统对某些问题集的性能比较好-即,比平均推广性能要好-那么,它肯定在另外一些地方比平均性能要差。图9-1表示定理9.1的第1部分可以推出的结果。6个方块表明了所有可能的分类问题,注意到这里并不是标准的特征空间。如果一个学习系统对某些问题集的性能比较好-即,比平均推广性能要好-那么,它肯定在另外一些地方比平均性能要差。
定理9.2 丑小鸭定理(Ugly Duckling)如果只使用有限的谓词集合来区分待研究的任何两个模式的,那么任意这样两个模式所共享的谓词的书目是一个与模式的选择无关的常数。此外,如果模式的相似程度是基于两个模式共享的谓词的总数,那么任何两个模式都是“等相似”的。 丑小鸭定理阐述了:不存在与问题无关的“优越”的或“最好”的特征集合或者属性集合。 9.2.2丑小鸭定理