1 / 13

基于分类贡献 的样例选择算法

基于分类贡献 的样例选择算法. 报告人:张宁 email : zhangning_8383@126.com. 主要内容. 研究现状 算法思想 实验结果 参考文献. 研究现状. 考虑到近邻法 (NN) 分类需要大量计算和存储,至今已经出现了许多实例选择算法,典型的有 CNN 算法 [1] ,遗传算法搜索 [2-4] , DROP1-5 系列算法 [5] , ICF 算法 [6] , MCS 算法 [7] 等。 2005 年 Fabrizio Angiulli 提出的 FCNN 算法 [8] 挑选的一致集较大。

chet
Download Presentation

基于分类贡献 的样例选择算法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于分类贡献 的样例选择算法 报告人:张宁 email:zhangning_8383@126.com

  2. 主要内容 • 研究现状 • 算法思想 • 实验结果 • 参考文献

  3. 研究现状 考虑到近邻法(NN)分类需要大量计算和存储,至今已经出现了许多实例选择算法,典型的有CNN算法[1],遗传算法搜索[2-4],DROP1-5系列算法[5],ICF算法[6],MCS算法[7]等。 2005年Fabrizio Angiulli提出的FCNN算法[8]挑选的一致集较大。 MCS算法对噪声敏感,噪声的存在使一致集较大,而且影响测试精度。 2005年Li Yuangui设计了一种Condensing和Editing相结合的方法[9],能在一定程度上处理噪声数据,但并不能处理两类数据有重叠的情况。 考虑到以往算法: 1)挑选一致集较大;2)对噪声和异类数据重叠情况的敏感。 企图寻找一个算法: 1)使压缩集尽可能小;2)使压缩集不过度拟合训练数据。

  4. 算法思想 • 挑选机制: 定义:NUN距离——距离最近异类点的距离 分类贡献——落入其它点的NUN距离次数 机制:1)为了使挑选的集合尽可能小,每次挑选对分类贡献最大的点, 即:落入其它点的NUN距离次数最多的点加入压缩集。 2)为了避免噪声和异类数据重叠带来的影响,允许在训练集上有一定 的错误率,将有利于提高测试精度。

  5. 算 法 1)初始化候选集合为整个训练集,压缩集为空集 2)计算样本距离矩阵,并找出所有点的NUN距离3)统计每个点落入其它点NUN距离内的次数,并记录NUN距离内包含该点的所有点(这些点的集合记为NeighborSet) 4)While (error > TOLERANCE) Do 从候选集中选取落入其它点NUN距离内次数最多的点,加入压缩集; 从候选集合中去除该点,并去除该点的NeighborSet中所有点; 用当前压缩集测试整个训练集,得到错误率(error); End 5)输出压缩集

  6. 2 2 + - + - 3 3 + - 1 2 人工数据上的挑选过程

  7. 算法特点 • 不受训练样例输入顺序的影响 • 该方法得到的压缩集较以往MCS、FCNN得到的压缩集样本数明显减少 • 抗噪声 • 测试精度高

  8. 人工数据上的挑选结果

  9. 数 据 库

  10. 基于贡献的压缩集与MCS、FCNN方法的比较 注:实验采用10-fold交叉验证,且将数据集随机划分10次,测试精度取平均值

  11. 算法分析 • 时间复杂度 1)计算距离矩阵O( ) 2)为所有点找NUN距离O( ) 3)对所有点统计落入其它点NUN距离内的次数O( ) • 空间复杂度 1)距离矩阵 2)近邻矩阵。某点对应的行表示该点NUN距离内的点,某点对应的列表示该点落入哪些点的NUN距离。

  12. 参考文献 [1] T. M. Cover and P. E. Hart. Nearest Neighbor Pattern Classification. IEEE Transaction on Information Theory. 1967. Vol.13(1):21-27. [2] Kangas J.Prototype search for a nearest neighbor classifier by a geneticalgorithm.Computational Intelligence and Multimedia Applications, 1999. [3] José Ramón Cano,Francisco Herrera etc. Using Evolutionary Algorithms as Instance Selection for Data Reduction in KDD: An Experimental Study. IEEE Transactions on evolutionary computation, VOL 7. NO. 6, Dec 2003. [4] Jose-Federico.Instance Selection and Feature Weighting Using Evolutionary Algorithms. IEEE Proceedings of the 15th International Conference on Computing. Nov 2006.

  13. [5] D R Wilson,T R Martinez.Reduction techniques for instance-based learning algorithms [J].Journal of Machine Learning.2000. [6]H Brighton, C Mellish. On the consistency of information filters for lazy learning algorithms [C]. Proc of 3rd European Conference on Principles of Data Mining and Knowledge Discovery.1999 [7]B. V. Dasarathy. Minimal Consistent Set (MCS) Identification for Optimal Nearest Neighbor Decision Systems Design.IEEE transaction on System.Man and Cybernetics.1994. [8]Fabrizio Angiulli. Fast Nearest Neighbor Condensation for Large Data Sets Classification. IEEE Transactions on Knowledge and Data Engineering. Volume 19,Issue 11.Nov 2007. [9] Yuangui Li; Jinjie Huang etc. New prototype selection rule integrated condensing with editing process for the nearest neighbor rules. IEEE International Conference. 14-17 Dec. 2005.

More Related