690 likes | 1.25k Views
中国科学院研究生院 2006 年 6 月. 机器学习研究 第六讲: 流形学习. 杨 剑. 维数约简. 增加特征数. 提高准确性. 增加信息量. 增加训练分类器的难度. 维数灾难. 解决办法:选取尽可能多的 , 可能有用的特征 , 然后根据需要进行特征约简. 维数约简. 依据某一标准选择性质最突出的特征. 特征选择. 维数约简. 经已有特征的某种变换获取约简特征. 特征抽取. 试验数据分析,数据可视化(通常为 2 维或 3 维)等都需要维数约简. Outline. 线性维数约简方法 : PCA, MDA. 流形和维数约简 .
E N D
中国科学院研究生院 2006年6月 机器学习研究第六讲:流形学习 杨 剑 中国科学院自动化研究所
中国科学院自动化研究所 维数约简 增加特征数 提高准确性 增加信息量 增加训练分类器的难度 维数灾难 解决办法:选取尽可能多的, 可能有用的特征, 然后根据需要进行特征约简.
维数约简 中国科学院自动化研究所 依据某一标准选择性质最突出的特征 特征选择 维数约简 经已有特征的某种变换获取约简特征 特征抽取 试验数据分析,数据可视化(通常为2维或3维)等都需要维数约简
中国科学院自动化研究所 Outline • 线性维数约简方法: PCA, MDA. • 流形和维数约简. • 流形学习的一些数学基础. • 几种流形学习算法简介:LLE, Isomap, LSTA. • 流形学习问题的简单探讨.
中国科学院自动化研究所 • 线性约简方法 • 通过特征的线性组合来降维. • 本质上是把数据投影到低维线性子空间. • 线性方法相对比较简单且容易计算. • 两种经典的寻找有效的线性变换的方法: • 主成分分析 (PCA); • 多重判别分析 (MDA).
Principal component 中国科学院自动化研究所 主成分分析 ( PCA ) • 目的:寻找能够表示采样数据的最好的投影子空间. • 求解:对样本的散布矩阵进行特征值分解, 所求子空间为过样本均值, 以最大特征值所对应的特征向量为方向的子空间.
中国科学院自动化研究所 主成分分析 • PCA对于椭球状分布的样本集有很好的效果, 学习所得的主方向就是椭球的主轴方向. • PCA 是一种非监督的算法, 能找到很好地代表所有样本的方向, 但这个方向对于分类未必是最有利的.
中国科学院自动化研究所 线性判别分析(LDA)1 • LDA是一种监督的维数约简方法. • 思想: 寻找最能把两类样本分开的投影直线. • 目标: 使投影后两类样本的均值之差与投影样本的总类散布的比值最大. Best projection direction for classification
中国科学院自动化研究所 线性判别分析(LDA)2 • 求解: 通过推导有关总类内散布矩阵和总类间散 布矩阵的广义特征值问题, 将原问题转化为矩阵求 逆的问题.
中国科学院自动化研究所 多重判别分析 (MDA) • MDA把LDA推广到多类的情况. • 对于c-类问题, MDA把样本投影到 c-1 维子空间. • 目标和解法与LDA相似,只是类内散布矩阵的定义更为复杂, 求解的广义特征值问题也更为复杂.
中国科学院自动化研究所 线性方法的缺点 • 线性方法对于很多数据不能进行有效的处理. • 现实中数据的有用特性往往不是特征的线性组合. R
中国科学院自动化研究所 流形学习和维数约简 • 流形是线性子空间的一种非线性推广. • 流形是一个局部可坐标化的拓扑空间. • 流形学习是一种非线性的维数约简方法.
中国科学院自动化研究所 流形学习的可行性 • 很多高维采样数据都是由少数几个隐含变量所决定的,如人脸图像采样由光线亮度, 人离相机的距离, 人的头部姿势, 人的脸部肌肉等因素决定. • 在认知科学研究中, 有学者认为人的认知过程是基于认知流形和拓扑连续性的. R
中国科学院自动化研究所 流形学习的一些数学基础 • 参考文献: • 陈省身, 陈维桓, 微分几何讲义. 北京大学出版社, 1983 • M Berger, B Gostiaux. Differential Geometry: Manifolds, Curves and Surfaces, GTM115. Springer-Verlag, 1974 • 陈维桓, 微分流形初步(第二版). 高等教育出版社, 2001
中国科学院自动化研究所 拓扑 • 集合上的拓扑 是 的满足以下性质的子集族: • 对属于它的任意多元素的并集是封闭的; • (ii) 对属于它的有限多元素的交集是封闭的; • 且 , • 称 是一个拓扑空间, 的元素叫做开集.
中国科学院自动化研究所 Hausdorff 空间 • 拓扑空间的任一开集称为它的每一个点及每一个子集的一个领域. • 如果对空间 中的任意两点 存在 和 使得 称 是一个Hausdorff 拓扑空间. 。x A 。y B
U 同胚映射 。 P M 中国科学院自动化研究所 流形的定义 设 M是一个Hausdorff 拓扑空间, 若对每一点 都有P 的一个开领域 U和 的一个开子集同胚,则称 M 为 n 维拓扑流形, 简称为 n 维流形.
M Rn z x: coordinate for z x2 R2 x x1 中国科学院自动化研究所 坐标卡 假定 是同胚, 其中 是 中的开集, 则称 为流形 M的一个坐标卡, 并且把 在 中的坐标 称为点 的坐标. 流形在本质上是局部可坐标化的拓扑空间.
中国科学院自动化研究所 相关 设 是 n维流形M 的两个坐标卡. 若当 时, 和它的逆映射都是 次可微的, 则称 是 相关的.
中国科学院自动化研究所 微分结构 • 设M是 n 维流形, 假定 是 M 上 • 坐标卡的一个子集合, 且满足以下条件: • 构成 M的一个开覆盖; • (2) 属于 的任意两个坐标卡都是 相关的; • 是极大的, • 则称 是M上的一个 微分结构.
微分流形 中国科学院自动化研究所 设 M是 n维流形, 若在 M上指定了一个 微分结构 , 则称 为一个 n维 微分流形. 属于 的坐标卡 称为该微分流形的容许坐标卡. 当 时, 称 M为光滑流形.
。 M R 中国科学院自动化研究所 光滑函数 设 是定义在光滑流形 M上的连续函数. 若在点 , 存在 M的一个容许坐标卡 使得 , 是在点 处光滑的函数, 则称函数 在点 处是光滑的.
中国科学院自动化研究所 光滑映射 设 M, N分别是 m维, n 维光滑流形, 是连续映 射. 设 , 若存在 M在点 x 处的容许坐标卡 及 N在点 处的容许坐标卡 , 使得 是在点 处光滑的映射, 则称映射 在点 处是光滑 的. 处处光滑的映射称为光滑映射.
。 M 。 N 中国科学院自动化研究所 光滑映射示意图
中国科学院自动化研究所 切向量 • 光滑流形M在点 x 的切向量 是一个满足下列条件的映 • 射 • 有 • 有 • 有 • 光滑流形的切向量是曲线的切向量的一种推广.
S1 M x S2 T2 T1 中国科学院自动化研究所 切空间 设M是 m 维光滑流形, , 用 表示M在点 处 的全体切向量的集合, 则在 中有自然的线性结构,使得 成为m维向量空间, 称其为 M在点 的切空间.
中国科学院自动化研究所 Riemann 流形 • 黎曼流形就是以光滑的方式在每一点的切空间 • 上指定了欧氏内积的微分流形. R
中国科学院自动化研究所 与流形学习有关的参考文献 • 与机器学习, 统计学等相关的各种杂志和会议论文. • http://www.cse.msu.edu/~lawhiu/manifold/
中国科学院自动化研究所 流形学习问题 设 是一个低维流形, 是一个光滑嵌入, 其中 D>d . 数据集 是随机生成的, 且经过 f 映射为观 察空间的数据 流形学习就是在给定观察样本 集 的条件下重构f和 . V. de Silva and J. B. Tenenbaum. Global versus local methods in nonlinear dimensionality reduction . Neural Information Processing Systems 15 (NIPS'2002), pp. 705-712, 2003.
中国科学院自动化研究所 几种流形学习算法 • 局部线性嵌入(LLE). • S.T. Roweis and L. K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 2000, 290: 2323--2326. • 等距映射(Isomap). • J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 2000, 290: 2319--2323. • 局部切空间排列(LTSA). Z.Y. Zhang, H.Y. Zha. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment. SIAM Journal of Scientific Computing, 2005, 26(1): 313-338.
中国科学院自动化研究所 局部线性嵌入(LLE) • 前提假设:采样数据所在的低维流形在局部是线性的,即每个采样点可以用它的近邻点线性表示. • 学习目标:在低维空间中保持每个邻域中的权值不变,即假设嵌入映射在局部是线性的条件下, 最小化重构误差. • 求解方法:特征值分解.
中国科学院自动化研究所 LLE算法 1 计算每一个点 的近邻点, 一般采用K 近邻或者 邻域. 2 计算权值 使得把 用它的K个近邻点线性表示 的误差最小, 即通过最小化 来求出 . 3 保持权值 不变, 求 在低维空间的象 , 使 得低维重构误差最小.
中国科学院自动化研究所 LLE算法示意图
中国科学院自动化研究所 LLE算法的求解 1计算每一个点 的近邻点. 2 对于点 和它的近邻点的权值 , 3 令 , 低维嵌入 是 M 的最小的第 2到第 d+1 个特征值对应的特征向量.
LLE算法的例子(1) 中国科学院自动化研究所
中国科学院自动化研究所 LLE算法的例子(2)
中国科学院自动化研究所 LLE算法的优点 • LLE算法可以学习任意维数的低维流形. • LLE算法中的待定参数很少, K和 d. • LLE算法中每个点的近邻权值在平移, 旋转,伸缩变换下是保持不变的. • LLE算法有解析的整体最优解,不需迭代. • LLE算法归结为稀疏矩阵特征值计算, 计算复杂度相对较小, 容易执行.
中国科学院自动化研究所 LLE算法的缺点 • LLE算法要求所学习的流形只能是不闭合的且在局部是线性的. • LLE算法要求样本在流形上是稠密采样的. • LLE算法中的参数 K, d有过多的选择. • LLE算法对样本中的噪音比较敏感. R
中国科学院自动化研究所 多维标度 (MDS) • MDS 是一种非监督的维数约简方法. • MDS的基本思想: 约简后低维空间中任意两点间的距离 应该与它们在原高维空间中的距离相同. • MDS的求解: 通过适当定义准则函数来体现在低维空间 中对高维距离的重建误差, 对准则函数用梯度下降法求解, 对于某些特殊的距离可以推导出解析解法.
中国科学院自动化研究所 MDS的准则函数
中国科学院自动化研究所 MDS的示意图
中国科学院自动化研究所 MDS的失效
中国科学院自动化研究所 等距映射(Isomap)的基本思想 • 建立在多维尺度变换(MDS)的基础上, 力求保持 • 数据点的内在几何性质, 即保持两点间的测地距离.
中国科学院自动化研究所 Isomap的前提假设 • 高维数据所在的低维流形与欧氏空间的一个子 集是整体等距的. • 与数据所在的流形等距的欧氏空间的子集是一 个凸集.
中国科学院自动化研究所 Isomap算法的核心 • 估计两点间的测地距离: • 1 离得很近的点间的测地距离用欧氏距离代替. • 2 离得较远的点间的测地距离用最短路径来逼近.
中国科学院自动化研究所 测地距离估计
中国科学院自动化研究所 Isomap算法 1 计算每个点的近邻点 (用K近邻或 邻域). 2 在样本集上定义一个赋权无向图 如果 和 互为近邻点, 则边的权值为 3 计算图中两点间的最短距离, 记所得的距离矩阵为 . 4 用MDS求低维嵌入流形 , 令 低维嵌入是 的最大的 d个特征值所对应的特征向量.
中国科学院自动化研究所 图距离逼近测地距离 • M. Bernstein, V. Silva, J.C. Langford, J.B. Tenenbaum 证明了如下的渐进收敛定理. • 假设采样点是随机抽取的, 则 • 渐进收敛定理 给定则只要样本集充分大且适当选择K , 不等式 • 至少以概率 成立.
中国科学院自动化研究所 Isomap 算法的例子(1) The input consists of a sequence of 4096-dimensional vectors. Applied to N =698 raw images, Isomap (K =6) learns a three-dimensional embedding of the data’s intrinsic geometric structure.
中国科学院自动化研究所 Isomap 算法的例子(2) Isomap applied to N=1000 handwritten “2”s from the MNIST database. Used e-Isomap (with e=4.2).