基于粒子群优化的快速 KNN 分类算法

基于粒子群优化的快速KNN分类算法 北京石油化工学院张国英沙芸江慧娜张景祥济南大学计算机工程学院计算机专业英语教程科技英语, 专业英语, IT英语特点：词汇、术语、专用语

主要内容 • 1 论文背景与意义 • 2 ｋ近邻分类文本分类算法 • 3 粒子群优化算法 • 4 基于粒子群算法的K近邻分类算法 • 5实验结果

1 论文背景与意义 • 基于机器学习的文本分类过程，与智能优化技术结合，对于庞大的文档集合分类，利于提高分类的速度和精度。 • 智能优化应该作为文本分类的重要一环。

2 ｋ近邻分类文本分类算法 • ① 计算测试文本X的特征项权重，文档特征向量w=[w1, w2,…, wM]; • ② 对训练集中的任一文本Xj，生成文档向量wj=[wj,1, wj,2,…, wj,M]； • ③ 计算训练文本集样本与测试文本的相似度，选出与测试文本最相似的 k个文本； • ④ 在新文本的 k个近邻中，依次计算每类的权重 • ⑤比较类的权重，将文本分到权重最大的类CI中。

3 粒子群优化算法PSO • 粒子群优化算法是群体智能优化方法 • 使用并行和结构化策略，随机但有指导性地加强高维空间的搜索能力。 • 所搜索的目标空间点有最小的适应度函数值 • 具有全局搜索和快速收敛的特点

3 粒子群优化算法 • PSO种群中任一粒子i的移动速度 • PSO种群中任一粒子i的位置

4 基于PSO的K近邻分类算法 • 文档分类的训练样本集规模很大 • KNN方法穷尽搜索整个样本空间的代价很大 • 粒子群算法群体的随机搜索能力，群体利用与其k个随机样本距离最近的粒子信息指导种群粒子的移动，在很小的搜索空间内快速获得k个近邻样本。

输入：文档集合文档总数N，近邻个数k，粒子群种群个数Q，误差阈值ε。输入：文档集合文档总数N，近邻个数k，粒子群种群个数Q，误差阈值ε。 • (1) 生成测试文档的文档特征向量w； • (2) 用随机函数在区间[1,N]内为Q个粒子各选择出k个整数（对应文档集合的文档序号）作为每个粒子的初始k个近邻位置，粒子群的初始速度为0； • (3) 计算w的k个最优近邻有序集合作为粒子群的全局最优位置，各粒子的位置先作为其局部最优位置。

(4) 置n=n+1，计算每个粒子的移动速度(即其k个近邻的序号偏移量) • (5) 从种群移动历史中选择w的k个最优近邻有序集合作为全局指导， • If ，则；从粒子j的移动历史中选择其k个最优近邻有序集合作为局部指导。

(6) 根据计算有序集合和 与测试文档X的相似度和，如果算法停止，输出集合作为测试文档X的k个近邻。

5 实验结果 • KNN算法的参数包括k近邻的选择，本文分别对k＝25和k＝35进行了实验, 特征维数分别为50和100。

表1　特征向量维数为100时的结果

表2　特征向量维数为50时的结果

当特征向量的维数是100时，相对算法KNN的分类时间而言，本文算法PSOKNN平均减少了69%的分类时间；当特征向量的维数是100时，相对算法KNN的分类时间而言，本文算法PSOKNN平均减少了69%的分类时间； • 当特征向量的维数为50时，PSOKNN算法比KNN的分类时间平均减少72%。PSOKNN算法在保持分类性能不变的情况下，可以大大减少分类时间

基于粒子群优化的 快速 KNN 分类算法