330 likes | 535 Views
基于支持向量机的高阶多光谱数据分类. 鲁 淑 霞 2007 年 5 月 9 日. 内容. 研究目的 主要研究内容 1. IFMSVM 2. NFMSVM 3. AFMSVM 4. FMSVM based on SVDD 5. 凸壳与最大间隔 6. SVMs 反问题 7. SVMs 的并行实现. 研究目的. 研究有限样本下基于支持向量机的高维多光谱数据分类问题,以统计学习理论、支持向量机技术为基础。
E N D
基于支持向量机的高阶多光谱数据分类 鲁 淑 霞 2007年5月9日
内容 • 研究目的 • 主要研究内容 1. IFMSVM 2. NFMSVM 3. AFMSVM 4. FMSVM based on SVDD 5. 凸壳与最大间隔 6. SVMs 反问题 7. SVMs 的并行实现
研究目的 • 研究有限样本下基于支持向量机的高维多光谱数据分类问题,以统计学习理论、支持向量机技术为基础。 • 研究从观测数据(训练样本)出发寻找尚不能通过理论分析得到的规律,利用这些规律对未来数据或无法观测的数据进行预测。
多光谱数据的描述 描述多光谱数据的三种方法: ⑴图像空间;⑵光谱空间;⑶特征空间
监督分类法 监督分类法 原形法 贝叶斯判别法 函数估计法 参数估 计法 线性函数 估计法 非线性函 数估计法 决策树 估计法 非参数 估计法 最近邻法 K近邻法 单一 模型法 混合 模型法 支持向量机 支持向量机 多光谱数据分类算法
高维多光谱数据的特点 • 数据维数高达几十到几百,数据类别个数多 • 由于地面样本获取的代价很大,所以训练样本数量通常很有限 • 传统算法的Hughes现象十分严重 对于有限训练样本,存在一个最优的数据复杂度,可以使分类精度达到最优。如果数据维数很高,量化精度过高,都会导致分类精度下降。这就是著名的Hughes现象。 光谱波段越多、量化精度越高,数据复杂度就越大。
Linear SVMs Margin: d
Non-linear SVMs Decision boundary Decision boundary Input Space (Domain X) Feature Space
主要多类支持向量机算法 • 1-v-R SVMs • 1-v-1 SVMs • 有向无环图SVMs • 纠错编码SVMs • 二叉树SVMs • MSVM 两类SVM 多类SVM
1. 1-v-R SVMs 2. 1-v-1 SVMs 投票策略
训练阶段同1-v-1 SVMs 3.有向无环图SVMs 4. MSVMs 测试阶段
1.IFMSVM 原问题 确定Margin 隶属度 松弛变量 隶属度
二次规划问题 对偶问题
2-范数 2. NFMSVM • 原问题 • 对偶问题
3.AFMSVM • 确定最小球半径 • 计算隶属度 图: 两个不同类中样本之间紧密度的差别
原问题 • 决策函数
实验结果 Table 2 Table 1 Table 3
FMSVM based on improved SVDD 2.radius of the minimum sphere Local density degree Fig. 1: The hypersphere containing the target data, described by the center and radius . Three objects are on the boundary, the support vectors . One object is outside and has 3. Fuzzy membership 1. Local density degree 第K个近邻
实验结果 Table 3: the performance of the FMSVM is compared with one-against-all (1-a-a), one-against-one (1-a-1) and MSVM on Iris data,Normal distribution data , Satimage data and Segmentation data.
几种k近邻距离 Fig. The left panel shows that can distinguish better between sparse and dense regions than . The right panel shows that takes also the directions to the neighbors into account, whereas does not. Both panels assume . Kappa Gamma delta
几种分类器的分析 优点: • 方法具有较强的泛化能力,与其他三种SVMs方法相比所提出的方法提高了分类精度 • 减少了噪声和野点的影响 • 不足及改进: • 具有较高时间复杂度 • 针对大数据集进行并行化处理 • 选取更加有效地隶属度 • 提出和改进一些快速的求解二次规划问题的方法
5. 凸壳和最大间隔 最大间隔分类器 凸壳的两个最近点c和d
平分最近点法(凸壳问题) 等价 线性硬间隔分类机的对偶问题
线性可分情况: • 定理1考虑训练集, 其中 设它是一个线性可分的训练集,则平分最近点法(凸壳问题)和线性硬间隔分类机的对偶问题是等价的. • 定理2设训练集是一个线性可分的,则平分最近点法(凸壳问题)两个最近点的距离等于线性硬间隔分类机的最大间隔.
凸壳和缩小的凸壳 正类点集的凸壳
非线性可分情况 • 定理3 推广的平分最近点法(缩小的凸壳问题)和线性软间隔分类机的对偶问题是等价的. • 定理4 推广的平分最近点法(缩小的凸壳问题)两个最近点的距离等于线性软间隔分类机的最大间隔.
6.SVMs反问题 将数据集随机地分成两个子集,可计算两个子集间的最大间隔 SVMs反问题: 目的: 将最大间隔划分作为一种新的启发式,用于生成决策树.
SMO 对偶问题 每次启发式地选择两个 进行优化,将二次规划问题转化为只求解两个变量的最优化问题,可以解析求解, 因而在算法中不需要迭代地求解二次规划问题, 该算法表现出整体的快速收敛性质.
7.SVMs的并行化实现 针对大数据集,为了克服较高时间复杂度,需要进行 并行化处理 步骤如下: • 先对数据进行聚类(k-均值) • 求解SVMs反问题,得到最大间隔(并行化处理) • 将最大间隔划分作为一种新的启发式,用于生成决策树(并行化处理)
研究展望 • 针对支持向量机方法,如何选取适当的核函数及核函数参数一直是一个很重要的问题。 • 如何选取更恰当的隶属函数,才能有效克服支持向量机对噪声或野点敏感的问题? • 基于聚类求解SVM反问题,还需要进一步研究SVM反问题、最大间隔与聚类之间的关系 • 研究专门针对支持向量机设计的快速算法是很有必要的,并行化实现 • 进一步完善支持向量机的理论和提出相对高效的支持向量机算法,以求达到以下几个目的:一是推广能力强,二是分类精度高,三是分类速度快。