第二章统计学习理论与支持向量机算法

第二章统计学习理论与支持向量机算法

1 引言

统计学习理论讨论的是基于数据的机器学习问题统计学习理论讨论的是基于数据的机器学习问题 2.1 引言 • 研究如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律，即基于观测设计优化过程，然后利用这些规律去分析客观对象，对未来数据或无法观测的数据进行预测。 • 主要任务：对于一种未知的依赖关系，以观测为基础对它进行估计。

现有机器学习方法共同的重要理论基础之一是统计学现有机器学习方法共同的重要理论基础之一是统计学 • 传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设。 • 但在实际问题中，样本数往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。

统计学习理论(Statistical Learning Theory 或SLT ) • 是一种专门研究小样本情况下机器学习规律的理论 • Vladimir N. Vapnik等人从六、七十年代开始致力于此方面研究，到九十年代中期，随着其理论的不断发展和成熟，也由于神经网络等学习方法在理论上缺乏实质性进展, 统计学习理论开始受到越来越广泛的重视。

统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。 • 在这一理论基础上发展了一种新的通用学习方法——支持向量机(Support Vector Machine或SVM )，它已初步表现出很多优于已有方法的性能。

统计学习理论 2

经典的统计基础存在两个理论缺陷 2.2 统计学习理论的形成与发展 • 没有对经验风险最小化原则下统计学习的一致性进行分析，不能保证经验风险的最小值(或下确界)收敛到(或依概率收敛到)期望风险的最小值(或下确界)。 • 大数定律描述的是一个极限过程，不对收敛速度进行分析，那么在样本数目有限的情况下，以频率代替概率(均值代替期望)并不一定能得到好的近似。

针对这两个问题，统计学习理论从理论上系统地分析经验最小化原则成立的条件，建立了学习过程收敛速度的界，进而提出了小样本归纳推理原则，并给出控制学习过程的推广能力的方法。 • 到20世纪90年代，统计学习理论已基本成熟。1995年，Vapnik完成专著《The Nature of Statistical Learning Theory》，这是统计学习理论走向成熟和得到正式承认的标志。

围绕学习问题的一般过程统计学习理论分成从理论向实践渐进的4个部分围绕学习问题的一般过程统计学习理论分成从理论向实践渐进的4个部分 • 学习过程一致性的理论 • 一个基于经验风险最小化原则的学习过程，满足怎样的条件时，它的经验风险与实际风险趋向一致。在分类问题中存在对应的充分必要条件，而对拟合问题目前仅存在充分条件。 • 学习过程收敛速度的理论 • 如果学习过程的经验风险与实际风险趋向一致，那么它们间的接近速度随着训练样本数的增加，是如何变化的，哪些因素控制着它们接近的速度。

控制学习过程泛化能力的理论 • 采用前两部分的结论改进学习过程，认为结构风险最小化原则，而不是最小化原则，可以使学习过程的经验风险与实际风险经验风险最终并且尽可能快地趋向一致。 • 构造学习算法的理论采用前三部分的结论 • 在分类和拟合问题中构造现实的学习算法。它遵循结构风险最小化原则从而较传统算法有更好的泛化能力。支持向量机SVM是基于该理论最早实现的，也是目前最有影响的分类回归算法之一。

学习过程的一致性及收敛速度 • 学习过程可以一般地表示如下设有定义在空间Z上的概率测度F(Z)，考虑函数的集合Q(z,a),aÎL（L为任意集合，它可以为一个标量集、向量集或抽象元素集）学习的目的是最小化风险泛函 R(a) = òQ(z, a)dF(z)，a ÎL（2.1）其中概率测度F(Z)未知，但给定了一定的独立同分布样本 z1,… , zt（2.2）这种一般问题就是在经验数据（2.2）基础上最小化风险泛函（2.1）式其中z代表了数据对(x, y)，Q(z, a)就是特定的损失函数

为了在未知的分布函数F(Z)下最小化（2-1）式的风险泛函，可以把风险泛函R(a)替换为经验风险泛函为了在未知的分布函数F(Z)下最小化（2-1）式的风险泛函，可以把风险泛函R(a)替换为经验风险泛函（2.3） • 令风险泛函的最小函数为Q(z, a0)，经验风险泛函的最小函数为Q(z, al )。使用经验风险（2.3）式最小的函数Q(z, al )逼近使风险（2.1）式最小的函数Q(z, a0)，这一原则称作经验风险最小化（Empirical Risk Minimization, ERM）归纳原则。

定义2.1一致性：如果下面两个序列依概率收敛于同一个极限，即 （2.4）（2.5）则ERM 原则对函数集Q(z,a),aÎL和概率分布函数F(z)是一致的。

定理2.1设函数集Q(z,a),aÎL满足条件 A£òQ(z,a)dF(z)£B(A£R(a)£B) 那么ERM 原则一致性的充分必要条件是经验风险 Remp(a)在函数集Q(z,a),aÎL上在如下意义下一致收敛于实际风险R(a)：（2.6）其中P为概率，则把这种一致收敛称作一致单边收敛。

定义2.2 随机变量序列 ， n=1,2,…, （2.7）这一随机变量序列既依赖于概率测度F(z),也依赖于函数集Q(z,a),aÎL，称之为一个双边收敛过程。

学习理论的关键定理（定理2.1） • 从概念的角度看，这个定理是十分重要的，因为它指出了ERM 原则一致性的条件是必要地（和充分地）取决于函数集中“最坏”的函数的。 • 在传统的统计学中，并没有考虑是否存在一致单边收敛的问题。 • 一致单边收敛是在一个新概念的基础上得到的，这个新概念叫做在n个样本上函数集Q(z,a),aÎL的熵。

定义 N^( z1,…, zn )代表用指示函数集Q(z,a),aÎL中的函数能够把给定的样本分成多少种不同的分类。则称H^(z1,…, zn ) = ln N^(z1,…, zn )为随机熵,它描述了函数集在给定数据上的多样性。 • 考虑随机熵在联合分布函数F(z1,…, zn )上的期望；H^(n) =E ln N^(z1,…, zn )（其中E为数学期望），把这个量称作只是函数集Q(z,a),aÎL在数量为n的样本上的熵，它依赖于函数集Q(z,a),aÎL、概率测度以及观测数目n，反映了给定指示函数集在数目为n的样本上期望的多样性。

在N^( z1,…, zn )值基础上构造两个新概念 • 退火的VC 熵 • 生长函数

在指示函数集Q(z,a),aÎL可测性的一定条件下，一致双边收敛的充分条件是 （2.8）它描述了ERM 原则一致性的一个充分条件这一等式是学习理论中的第一个里程碑，所有最小化经验风险的机器都要满足这一条件。

等式（2.9）是风险收敛速度快的一个充分条件。这一等式是学习理论的第二个里程碑，它保证了收敛有快的渐近速度。

等式（2.10）给出了对任何概率测度ERM 具有一致性的充分必要条件；而且，如果这个条件成立，则收敛的速度是快的。 • 等式（2.10）就是学习理论中的第三个里程碑，它描述了在什么充分必要条件下，一个履行ERM 原则的学习机器有一个快的收敛的渐近速度，而不管所用的概率测度如何（即不管所要解决的问题如何）

函数集的VC维 • VC 维描述了组成学习模型的函数集合的容量，也就是说刻画了此函数集合的学习能力。 • VC 维越大，函数集合越大，其相应的学习能力就越强。

定义2.3 指示函数集的VC维：一个指示函数集Q(z,a),aÎL的VC维是能够被集合中的函数以所有可能的2h种方式分成两类的向量z1,…, zh的最大数目h。 • VC维是统计学习理论中的一个核心概念，它是目前为止对函数集学习性能的最好描述指标。

它的另一个等价直观的定义是： • 假如存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能的2h种形式分为两类，则称函数集能够把样本数为h的样本集打散。 • 指示函数集的VC维就是用这个函数集中的函数所能够打散的最大样本集的样本数目。也就是说，如果存在h个样本的样本集能够被函数集打散，而不存在有h +1个样本集能够被函数集打散，则函数集的VC维就是h。 • 如果对任意的样本数，总能找到一个样本集能够被这个函数集打散，则函数集的VC维就是无穷大。

如在二维实数空间R2，函数集为有向直线集。则对一给定有向直线，空间中的数据点被直线分为两类。直线方向如图2.1中箭头所示，位于直线正方向一侧的数据点为一类，位于直线负方向一侧的数据点为另一类。在二维实数空间R2中，找不到有向直线集不能够打散的由三个数据点构成的点集如在二维实数空间R2，函数集为有向直线集。则对一给定有向直线，空间中的数据点被直线分为两类。直线方向如图2.1中箭头所示，位于直线正方向一侧的数据点为一类，位于直线负方向一侧的数据点为另一类。在二维实数空间R2中，找不到有向直线集不能够打散的由三个数据点构成的点集图2.1 在二维空间R2中被有向直线打散的三个点

但能找到有向直线集不能够打散的由四个数据点构成的点集但能找到有向直线集不能够打散的由四个数据点构成的点集图2.2 在二维空间R2中不能被有向直线打散的四个点 • 因此，此二维实数空间R2中的有向直线集的VC维是3。

定理2.2 任何生长函数它或者满足等式 GL(n)=nln 2 或者受下面的不等式约束：其中h 是一个整数，使得当n＝h时有 GL (h)=hln 2 GL (h+1)<(h+1)ln2. 即生长函数或者是线性的，或者以一个对数为上界。

定义2.4 如果指示函数集Q(z,a),aÎL的生长函数是线性的则这个函数集的VC维是无穷大。如果指示函数集Q(z,a),aÎL的生长函数以参数为h的对数函数为界，则这个指示函数集的VC维是有限的且等于h。

定理2.3 对具有有限VC维h的指示函数集Q(z,a),aÎL如下两不等式成立： • 1. 一致双边收敛速度不等式（2.11）式中ε*=(ε-1/ n) • 2. 一致相关收敛速度不等式（2.12）不等式(2.11)，(2.12)给出了遵循ERM准则的学习机器的泛化能力的与分布无关的界。

则遵循ERM准则的有界函数集0£Q(z,a)£B,aÎL的风险以1-η的概率满足不等式： （2.13）式中：式(2.13)表明，经验风险最小化原则下学习机器的实际风险是由两部分组成的，可以写作：（2.14）

结构风险最小化 • 传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的,因此，需要同时最小化经验风险和置信范围。 • 统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Minimization)，即SRM准则。

把函数集S= {Q(z,a),aÎL} 分解为一个函数子集序列 S1 ÌS2 Ì… ÌSk Ì…… ÌS （2.15）式中 Sk= {Q(z,a),aÎLk}，且 • 考虑容许结构（Admissible Structures）满足如下特性： • 函数集S中任何一个子集Sk的VC维是有限的； • 任何一个子集Sk包含 ①有界函数集 0£Q(z,a) £Bk , aÎL 或者 ②存在一对值，使得一个非负函数集Q(z,a),aÎL满足如下不等式（2.16） • 函数集S中集合在L1(F)度量空间中是处处紧致的。 F=F(z)是关于z的概率分布函数。

由式（2.15），有如下结论成立： • 各子集Sk的VC维hk随着k的增加按非递减规律排列 h1£h2£…£hk £… • 各子集Sk的界Bk随着k的增加按非递减规律排列 B1£B2£…£Bk £… • 各子集Sk的界τk随着k的增加按非递减规律排列τ τ1£τ2£…£τk £…

则函数集Sk中函数Q(z, )的实际风险至少以概率1-η满足（2.17）或（2.18）式中（2.19）

真实风险的界 置信范围经验风险 S1 S2 S3 h • 这样，在同一个子集中置信范围就相同：在每一个子集中寻找最小经验风险，通常它随着子集复杂度的增加而减小。选择最小经验风险与置信范围之和最小的子集，就可以达到期望风险的最小。这个子集中使经验风险最小的函数就是要求的最优函数，这种思想称作有序风险最小化或者结构风险最小化，如图2.3所示。图2.3 结构风险最小化示意图

在SRM原则下，一个分类器的设计过程包括以下两方面任务：在SRM原则下，一个分类器的设计过程包括以下两方面任务： • 选择一个适当的函数子集（使之对问题来说有最优的分类能力）； • 从这个子集中选择一个判别函数（使经验风险最小）。 • 第一步相当于模型选择，而第二步则相当于在确定了函数形式后的参数估计。 • 与传统方法不同的是，在这里模型的选择是通过对它的推广性的界的估计进行的。

支持向量机 3

在统计学习理论基础上发展起来的一种新的机器学习方法在统计学习理论基础上发展起来的一种新的机器学习方法 2.3 支持向量机 • 1992年，Boser，Guyon和Vapnik等人在《A Training Algorithm for Optimal Margin classifiers》一书中，提出了最优边界分类器算法，这也是支持向量机算法的最初模型 • 1993年，Cortes和Vapnik在《The Soft-Margin Classifier》一书中，进一步探讨了非线性情况下的最优边界分类问题 • 1995年， Vapnik在发表的《The Nature of Statistical Learning Theory》一书中，完整地提出了基于统计学习理论的支持向量机学习算法 • 1997年，Vapnik，Gokowich和Smola发表的《Support Vector Method for Function Approximation，Regression Estimation．and Signal Processing》一文中，详细介绍了基于支持向量机方法的回归估计方法(Support Vector Regression，SVR)和信号处理方法

与其它传统的机器学习方法相比，SVM主要有以下几个方面的特点：与其它传统的机器学习方法相比，SVM主要有以下几个方面的特点： • 以严格的数学理论(统计学习理论)为基础，克服了传统神经网络学习中靠经验和启发的先验成分等缺点。 • 采用了结构风险最小化原则，克服了传统神经网络中只靠经验风险最小化来估计函数的缺点，提高了置信水平，克服了过学习等问题，使学习机器有良好的泛化能力。 • 通过求解凸二次规划问题，可以得到全局的最优解，而不是传统神经网络学习中的局部最优解，保证了解的有效性。 • 用内积的回旋巧妙地构造核函数，克服了特征空间中的维数灾难问题，通过非线性映射，只需在原空间中计算样本数据与支持向量的内积，而不需要知道非线性映射的显性表达形式。 • 成功地解决了小样本学习问题，克服了传统上需要以样本数目无穷多为假设条件来推导各种算法的缺点，得到了小样本条件下的全局最优解。 • 通过引入VC维的概念，使网络的收敛速度、样本被错分的界和风险泛函得到了控制。

支持向量机的发展 • 理论基础不断拓展 • 统计学习理论作为支持向量机的理论平台，逐渐获得完善和丰富 • 正则化理论成为指导支持向量机参数选择和支持向量核函数的重要思想 • 贝叶斯理论成为构造支持向量机模型的一个理论基础 • 在对支持向量机所呈现的解具有稀疏性的研究上，稀逼近理论渐渐成为支持向量机分析的一个直观工具

支持向量机的发展 • 实现算法不断改进 • 在训练算法优化方面，分块训练思想将大的二次规划问题分解为一系列小的二次规划问题，从而简化了算法的运行成本 • 序列最小优化训练思想是分块训练思想的一种极端情形，每次只针对含两个样本的二次规划问题进行求解。这样求出的解具有解析形式，同时避免了大规模二次优化问题中的不稳定性和复杂性问题 • 在对SVM算法改进方面，出现了一大批较好的变体算法，有C-SVM系列算法、v-SVM系列算法、 One-class SVM算法、RSVM算法、WSVM算法和LS—SVM算法等

支持向量机的发展 • 领域不断扩大 • 模式识别方面，SVM 和先验语义结合应用于文本分类，取得了较高的识别精度，在图像分类、图像分割、自动图形定位检测、遥感图像分析、蛋白质分类等方面也有很好的表现 • 回归估计方面，SVM 在时间序列预测和混沌系统的动态重构中表现出强大的优势 • 数据融合方面，SVM 已经应用于个人身份证的多模型数据融合、多信息源的融合、分布式数据融合以及遥感数据融合 • 除此之外，SVM 还在过程建模、系统辨识、非线性控制等方面显示了很好的工作能力

支持向量机的实现 • 台湾大学林智仁 (Chih-Jen Lin) 博士等开发设计了一个操作简单、易于使用、快速有效的通用 SVM 软件包（LibSVM），可以解决分类问题（包括C-SVC 、n-SVC）、回归问题（包括 e-SVR、n-SVR）以及分布估计（one-class-SVM）等问题，提供了线性、多项式、径向基和 S 形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。

支持向量机基本原理 • SVM从线性可分情况下的最优分类面发展而来。 • 最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。 • SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。 • 过两类样本中离分类面最近的点且平行于最优分类面的超平面上H1,H2的训练样本就叫做支持向量。

设线性可分样本集为 d维向量， 2类样本，y为类别标签。则线性判别函数为分类面方程为

作判别函数归一化，即满足|g(x)|1，即距离分类面最近的样本距离为|g(x)|=1，则两类的分类间隔为2/||w||。如图所示

令分类间隔2/||w||最大，等价于||w||或者||w||2最小，使得分类面对于所有的样本能正确分类，即满足令分类间隔2/||w||最大，等价于||w||或者||w||2最小，使得分类面对于所有的样本能正确分类，即满足（2.20）则该分类面为最优分类面。过两类样本中离分类面最近的点，且平行于最优分类面的超平面H1,H2上的训练样本则称为支持向量，显见，最优分类面是由支持向量来“支撑”的。

最优分类面的求取 由最优分类面的条件建立目标函数，为二次型由满足条件作为约束条件（样本条件）则有约束优化问题

前面的最优分类面式在线性可分条件下推导出来的。不能应用于线性不可分情况。约束条件1：对于线性不可分情况，许多样本不能满足正确分类条件式因此，增加松弛项，分类条件式为（2.21）广义最优分类面

第二章 统计学习理论与 支持向量机算法