130 likes | 271 Views
基于分类贡献 的样例选择算法. 报告人:张宁 email : zhangning_8383@126.com. 主要内容. 研究现状 算法思想 实验结果 参考文献. 研究现状. 考虑到近邻法 (NN) 分类需要大量计算和存储,至今已经出现了许多实例选择算法,典型的有 CNN 算法 [1] ,遗传算法搜索 [2-4] , DROP1-5 系列算法 [5] , ICF 算法 [6] , MCS 算法 [7] 等。 2005 年 Fabrizio Angiulli 提出的 FCNN 算法 [8] 挑选的一致集较大。
E N D
基于分类贡献 的样例选择算法 报告人:张宁 email:zhangning_8383@126.com
主要内容 • 研究现状 • 算法思想 • 实验结果 • 参考文献
研究现状 考虑到近邻法(NN)分类需要大量计算和存储,至今已经出现了许多实例选择算法,典型的有CNN算法[1],遗传算法搜索[2-4],DROP1-5系列算法[5],ICF算法[6],MCS算法[7]等。 2005年Fabrizio Angiulli提出的FCNN算法[8]挑选的一致集较大。 MCS算法对噪声敏感,噪声的存在使一致集较大,而且影响测试精度。 2005年Li Yuangui设计了一种Condensing和Editing相结合的方法[9],能在一定程度上处理噪声数据,但并不能处理两类数据有重叠的情况。 考虑到以往算法: 1)挑选一致集较大;2)对噪声和异类数据重叠情况的敏感。 企图寻找一个算法: 1)使压缩集尽可能小;2)使压缩集不过度拟合训练数据。
算法思想 • 挑选机制: 定义:NUN距离——距离最近异类点的距离 分类贡献——落入其它点的NUN距离次数 机制:1)为了使挑选的集合尽可能小,每次挑选对分类贡献最大的点, 即:落入其它点的NUN距离次数最多的点加入压缩集。 2)为了避免噪声和异类数据重叠带来的影响,允许在训练集上有一定 的错误率,将有利于提高测试精度。
算 法 1)初始化候选集合为整个训练集,压缩集为空集 2)计算样本距离矩阵,并找出所有点的NUN距离3)统计每个点落入其它点NUN距离内的次数,并记录NUN距离内包含该点的所有点(这些点的集合记为NeighborSet) 4)While (error > TOLERANCE) Do 从候选集中选取落入其它点NUN距离内次数最多的点,加入压缩集; 从候选集合中去除该点,并去除该点的NeighborSet中所有点; 用当前压缩集测试整个训练集,得到错误率(error); End 5)输出压缩集
2 2 + - + - 3 3 + - 1 2 人工数据上的挑选过程
算法特点 • 不受训练样例输入顺序的影响 • 该方法得到的压缩集较以往MCS、FCNN得到的压缩集样本数明显减少 • 抗噪声 • 测试精度高
基于贡献的压缩集与MCS、FCNN方法的比较 注:实验采用10-fold交叉验证,且将数据集随机划分10次,测试精度取平均值
算法分析 • 时间复杂度 1)计算距离矩阵O( ) 2)为所有点找NUN距离O( ) 3)对所有点统计落入其它点NUN距离内的次数O( ) • 空间复杂度 1)距离矩阵 2)近邻矩阵。某点对应的行表示该点NUN距离内的点,某点对应的列表示该点落入哪些点的NUN距离。
参考文献 [1] T. M. Cover and P. E. Hart. Nearest Neighbor Pattern Classification. IEEE Transaction on Information Theory. 1967. Vol.13(1):21-27. [2] Kangas J.Prototype search for a nearest neighbor classifier by a geneticalgorithm.Computational Intelligence and Multimedia Applications, 1999. [3] José Ramón Cano,Francisco Herrera etc. Using Evolutionary Algorithms as Instance Selection for Data Reduction in KDD: An Experimental Study. IEEE Transactions on evolutionary computation, VOL 7. NO. 6, Dec 2003. [4] Jose-Federico.Instance Selection and Feature Weighting Using Evolutionary Algorithms. IEEE Proceedings of the 15th International Conference on Computing. Nov 2006.
[5] D R Wilson,T R Martinez.Reduction techniques for instance-based learning algorithms [J].Journal of Machine Learning.2000. [6]H Brighton, C Mellish. On the consistency of information filters for lazy learning algorithms [C]. Proc of 3rd European Conference on Principles of Data Mining and Knowledge Discovery.1999 [7]B. V. Dasarathy. Minimal Consistent Set (MCS) Identification for Optimal Nearest Neighbor Decision Systems Design.IEEE transaction on System.Man and Cybernetics.1994. [8]Fabrizio Angiulli. Fast Nearest Neighbor Condensation for Large Data Sets Classification. IEEE Transactions on Knowledge and Data Engineering. Volume 19,Issue 11.Nov 2007. [9] Yuangui Li; Jinjie Huang etc. New prototype selection rule integrated condensing with editing process for the nearest neighbor rules. IEEE International Conference. 14-17 Dec. 2005.