slide1
Download
Skip this Video
Download Presentation
统计学习理论和 SVM( 支持向量机 )

Loading in 2 Seconds...

play fullscreen
1 / 21

统计学习理论和 SVM( 支持向量机 ) - PowerPoint PPT Presentation


  • 214 Views
  • Uploaded on

统计学习理论和 SVM( 支持向量机 ). 主要内容. 统计学习理论的核心内容 支持向量机 ( 1 )标准的最优分类面 ( 2 )广义最优分类面 ( 3 )变换到高维空间的支持向量机 感受. 统计学习理论的核心内容. 统计学习理论是小样本统计估计和预测学习的最佳理论。

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 统计学习理论和 SVM( 支持向量机 ) ' - vashon


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2
主要内容
  • 统计学习理论的核心内容
  • 支持向量机
  • (1)标准的最优分类面
  • (2)广义最优分类面
  • (3)变换到高维空间的支持向量机
  • 感受
slide4
统计学习理论是小样本统计估计和预测学习的最佳理论。统计学习理论是小样本统计估计和预测学习的最佳理论。

假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布P(X,Y),P(X,Y)反映了某种知识。学习问题可以概括为:根据l个独立同分布( independently drawn and identically distributed )的观测样本train set,

slide5
学习到一个假设H=f(x, w) 作为预测函数,其中w是广义参数.它对P(X,Y)的期望风险R(w)是(即统计学习的实际风险):
slide6

而对train set上产生的风险Remp(w)被称为经验风险(学习的训练误差):

首先Remp(w)和R(w)都是w的函数,传统概率论中的定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w),却没有保证使Remp(w)最小的点也能够使R(w)最小(同步最小)。

slide7

根据统计学习理论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集f(x, w)的所有函数(当然也包括使经验风险员小的函数),经验风险Remp(w)和实际风险R(w)之间至少以不下于1-η(0≤η≤1)的概率存在这样的关系:

slide9

一般的学习方法(如神经网络)是基于 Remp(w) 最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算法(如神经网络)的规模使得Remp(w) 不断降低以至为0。

但是,这样使得算法(神经网络)的复杂度增加, VC维h增加,从而φ(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过度拟和(Overfitting).

slide10

支持向量机

Support Vector Machines

slide11
支持向量机比较好地实现了有序风险最小化思想(SRM)支持向量机比较好地实现了有序风险最小化思想(SRM)
slide12

如上图的训练样本,在线性可分的情况下,存在多个超平面(Hyperplane) (如 : H1,H2….)使得这两类被无误差的完全分开。这个超平面被定义为:

其中W.X是内积( dot product ),b是标量。

slide13

Optimal Hyperplane (最优超平面)是指两类的分类空隙最大,即每类距离超平面最近的样本到超平面的距离之和最大。距离这个最优超平面最近的样本被称为支持向量(Support Vector)。

slide14

Margin =

…..(1)

H1平面:

H2平面:

…..(2)

slide15

求解最优超平面就相当于,在(2)的约束条件下,求(1)的最大值

Minimum:

Subject to:

slide16
广义最优分类面
  • 在线性不可分的情况下,就是某些训练样本不能满足式(2)的条件,因此可以在条件中增加一个松弛项ζ,约束条件变成 :
slide17

此时的目标函数是求下式的最小值:

这个二次优化,同样可以应用Lagrange方法求解

slide18
变换到高维空间的支持向量机
  • 采用如下的内积函数:
slide20
感受
  • 理论基础扎实
  • 应用领域很广
  • 地名识别
  • 鲁棒性强
  • …………
thank

Thank!

2003-4-18

ad