基于分类贡献的样例选择算法

基于分类贡献 的样例选择算法报告人：张宁 email：zhangning_8383@126.com

主要内容 • 研究现状 • 算法思想 • 实验结果 • 参考文献

研究现状 考虑到近邻法(NN)分类需要大量计算和存储，至今已经出现了许多实例选择算法，典型的有CNN算法[1]，遗传算法搜索[2-4]，DROP1-5系列算法[5]，ICF算法[6]，MCS算法[7]等。 2005年Fabrizio Angiulli提出的FCNN算法[8]挑选的一致集较大。 MCS算法对噪声敏感，噪声的存在使一致集较大，而且影响测试精度。 2005年Li Yuangui设计了一种Condensing和Editing相结合的方法[9]，能在一定程度上处理噪声数据，但并不能处理两类数据有重叠的情况。考虑到以往算法： 1）挑选一致集较大；2）对噪声和异类数据重叠情况的敏感。企图寻找一个算法： 1）使压缩集尽可能小；2）使压缩集不过度拟合训练数据。

算法思想 • 挑选机制：定义：NUN距离——距离最近异类点的距离分类贡献——落入其它点的NUN距离次数机制：1）为了使挑选的集合尽可能小，每次挑选对分类贡献最大的点，即：落入其它点的NUN距离次数最多的点加入压缩集。 2）为了避免噪声和异类数据重叠带来的影响，允许在训练集上有一定的错误率，将有利于提高测试精度。

算法 1）初始化候选集合为整个训练集，压缩集为空集 2）计算样本距离矩阵，并找出所有点的NUN距离3）统计每个点落入其它点NUN距离内的次数，并记录NUN距离内包含该点的所有点（这些点的集合记为NeighborSet） 4）While (error > TOLERANCE) Do 从候选集中选取落入其它点NUN距离内次数最多的点，加入压缩集；从候选集合中去除该点，并去除该点的NeighborSet中所有点；用当前压缩集测试整个训练集，得到错误率（error）； End 5）输出压缩集

2 2 + - + - 3 3 + - 1 2 人工数据上的挑选过程

算法特点 • 不受训练样例输入顺序的影响 • 该方法得到的压缩集较以往MCS、FCNN得到的压缩集样本数明显减少 • 抗噪声 • 测试精度高

人工数据上的挑选结果

数据库

基于贡献的压缩集与MCS、FCNN方法的比较 注：实验采用10-fold交叉验证，且将数据集随机划分10次，测试精度取平均值

算法分析 • 时间复杂度 1）计算距离矩阵O( ) 2）为所有点找NUN距离O( ) 3）对所有点统计落入其它点NUN距离内的次数O( ) • 空间复杂度 1）距离矩阵 2）近邻矩阵。某点对应的行表示该点NUN距离内的点，某点对应的列表示该点落入哪些点的NUN距离。

参考文献 [1] T. M. Cover and P. E. Hart. Nearest Neighbor Pattern Classification. IEEE Transaction on Information Theory. 1967. Vol.13(1):21-27. [2] Kangas J.Prototype search for a nearest neighbor classifier by a geneticalgorithm.Computational Intelligence and Multimedia Applications, 1999. [3] José Ramón Cano,Francisco Herrera etc. Using Evolutionary Algorithms as Instance Selection for Data Reduction in KDD: An Experimental Study. IEEE Transactions on evolutionary computation, VOL 7. NO. 6, Dec 2003. [4] Jose-Federico.Instance Selection and Feature Weighting Using Evolutionary Algorithms. IEEE Proceedings of the 15th International Conference on Computing. Nov 2006.

[5] D R Wilson,T R Martinez.Reduction techniques for instance-based learning algorithms [J].Journal of Machine Learning.2000. [6]H Brighton, C Mellish. On the consistency of information filters for lazy learning algorithms [C]. Proc of 3rd European Conference on Principles of Data Mining and Knowledge Discovery.1999 [7]B. V. Dasarathy. Minimal Consistent Set (MCS) Identification for Optimal Nearest Neighbor Decision Systems Design.IEEE transaction on System.Man and Cybernetics.1994. [8]Fabrizio Angiulli. Fast Nearest Neighbor Condensation for Large Data Sets Classification. IEEE Transactions on Knowledge and Data Engineering. Volume 19,Issue 11.Nov 2007. [9] Yuangui Li; Jinjie Huang etc. New prototype selection rule integrated condensing with editing process for the nearest neighbor rules. IEEE International Conference. 14-17 Dec. 2005.

基于分类贡献 的样例选择算法