390 likes | 550 Views
基于决策树算法的垃圾邮件通信 行为检测过滤技术研究. 导师:孙名松 教授. 学生:王洪斌. 目 录. 课题背景 邮件过滤技术 行为识别检测模型 数据预处理 仿真实验 主要创新点 结束语和展望 发表论文. 第 2/39 页. 课题背景. 选题来源. 本课题是在申报国家“ 863 计划”面上项目同时结合哈尔滨理工大学校园信息化建设背景下提出的。本文作为该项目的一个组成部分,将决策树算法和数据挖掘算法结合根据垃圾邮件的通信行为进行过滤,旨在加强信息传输安全同时减轻校园网络主干网的带宽消耗。. 第 3/39 页. 课题背景. 论文主要内容.
E N D
基于决策树算法的垃圾邮件通信 行为检测过滤技术研究 导师:孙名松 教授 学生:王洪斌
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第2/39页
课题背景 选题来源 本课题是在申报国家“863计划”面上项目同时结合哈尔滨理工大学校园信息化建设背景下提出的。本文作为该项目的一个组成部分,将决策树算法和数据挖掘算法结合根据垃圾邮件的通信行为进行过滤,旨在加强信息传输安全同时减轻校园网络主干网的带宽消耗。 第3/39页
课题背景 论文主要内容 • 比较邮件过滤方法,将行为识别技术应用于垃圾邮件过滤; • 为了提高邮件过滤的检测效率和实时性,提出基于决策树算法的通信行为检测模型 第4/39页
课题背景 论文主要内容 • 数据预处理,即把邮件服务器的原始日志文件中的数据进行离散化处理; • 二次处理,即对处理后生成的决策树进行剪枝处理,从而对测试数据进行高效,准确的测试; • 仿真实验,得出结论。 第5/39页
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第6/39页
邮件过滤技术 过滤 技术分类 内容识别 贝叶斯(Bayes) 支持向量机(SVM) 神经网络 … … 行为识别 邮件路径地理属性分析(GEPA ) 数据挖掘( DM ) …… 图 2-1 技术分类图 第7/39页
邮件过滤技术 网络安全三层体系结构 图 2-2 网络安全三层体系结构 第8/39页
目 录 • 课题背景 • 邮件过滤技术 • 通信行为检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第9/39页
预处理模块 数据采集模块 检测引擎模块 检测到垃圾 邮件 智能模块 邮件日志文件 处理模块 通信行为检测模型 模型总体结构 图 3-1 模型结构图 第10/39页
通信行为检测模型 基于决策树的通信行为检测模型 本文将“检测引擎模块”进行细化设计后提出了“基于决策树的通信行为检测”的模型 图 3-2 基于决策树的通信行为检测模型 第11/39页
通信行为检测模型 C4.5算法描述及改进 C4.5算法在决策树算法中的一个优点是:形象直观,该算法通过2个步骤来建立决策树:树的生成阶段和树的剪枝阶段。 该算法主要基于信息论中的熵理论 。熵在系统学上是表示事物的无序度,是系统混乱程度的统计量。C4.5基于生成的决策树中节点所含的信息熵最小的原理。 第12/39页
通信行为检测模型 C4.5算法描述及改进 算法改进 由于本文研究的是分类问题,因此,每个分支的样本数量有限,而待分类集合中的样本数量本身数量特别大 ,尤其是电信级别的数据更是海量数据,因此可以对原计算公式进行化简,降低复杂度,达到提高速度的目的。 第13/39页
通信行为检测模型 规则剪枝分析 剪枝原则 原则1:采用对比法,倾向保留决策树中条目数多的分支。 原则2:单个属性在判定规则树的单条规则中至多出现一次。 原则3:倾向降低连续值属性的重要性。 第14/39页
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第15/39页
数据预处理 数据来源 本文采用的数据来自于哈尔滨理工大学网络信息中心使用邮件服务器,记录了服务器上邮件的相关信息,为本课题的研究提供了稳定而可靠的数据源。 第16/39页
数据预处理 数据日志片段 表4-1日志数据片段 第17/39页
数据预处理 原始数据缺点 • 数据类型多样,处理困难。 • 单独观察每一条记录,只能看出它是一条邮件发送日志,如果不与前后相联系,很难发现垃圾邮件的通信行为特征。 第18/39页
数据预处理 离散化处理 表4-2 属性匹配法匹配过程 第19/39页
数据预处理 离散化处理后属性 表4-3 特征属性片断 第20/39页
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第21/39页
仿真实验 学习样本和测试样本 表5-1 样本数据片段 第22/39页
仿真实验 学习样本和测试样本 表5-1是数据预处理后的标准格式。 为避免发生 “过学习”现象,我们不需要让模型学习过多的样本细节,这里的样本集取750条数据作为学习样本进行训练。测试样本数据为2362条。 第23/39页
仿真实验 实验环境和测试参数 实验环境为“CPU AMD Athlon(tm) 64×2 Dual Core 4000+,内存1G,Windows XP Professional操作系统”,开发工具为Microsoft Visual C++ 6.0。 衡量邮件过滤系统好坏的参数有很多,其中最重要的是准确率和召回率。准确率(Precision): 即垃圾邮件检对率。正确率越大,将非垃圾邮件误判为垃圾邮件的数量越少。召回率(Recall): 即垃圾邮件检出率。召回率越高,“漏网”的垃圾邮件就越少。 第24/39页
仿真实验 图 5-1 生成决策树结果图 第25/39页
仿真实验 图 5-2 修剪后的决策树节点图 第26/39页
仿真实验 图 5-3 检测程序流程图 第27/39页
仿真实验 图 5-4 参数计算程序流程 第28/39页
仿真实验 测试结果 2362条数据经过测试后,测出的合法条目总数为295条,非法条目总数为2067条。 根据论文中的参数计算程序得出结果:其中准确率为93.8%;召回率为74.5% 第29/39页
仿真实验 与其他过滤技术的比较 图5-6 算法结果比较 第30/39页
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第31/39页
主要创新点 主要创新点 • 本人提出了通信行为检测(CBD)概念,并提出了通信行为检测模型; • 引入了数据挖掘中的C4.5决策树算法,对原C4.5算法进行了改进 ; • 剪枝过程中提出了3个剪枝原则; • 提出了一种新的离散化方法,称为属性匹配法 。 第32/39页
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第33/39页
结束语和展望 论文主要工作 • 深入研究了电子邮件协议及主流垃圾邮件过滤技术,提出了通信行为检测的概念,并提出了一种基于通信行为检测的垃圾邮件过滤方法。 • 通过研究数据挖掘中的分类算法,采用了基于决策树的分类过滤模型; 第34/39页
结束语和展望 论文主要工作 • 对C4.5算法进行了改进,使模型的计算速度得到提高。 • 对规则决策树剪枝进行处理,提出了3个剪枝原则。 • 通过仿真实验,可以看到过滤模型的准确率较高,召回率也达到了预期目标,从节约网络带宽的角度来考虑,已经满足了其作为邮件过滤第一道屏障的任务要求。 第35/39页
结束语和展望 下一步工作 • 考虑研究其他的决策树算法,能够实现动态剪枝策略,通过试验测试,选取出最合适,效率最好的算法应用到实际中。 • 考虑行为识别技术和内容识别技术的双层邮件过滤模型,二者联合必定会同时显著提高过滤效率和过滤能力。 第36/39页
目 录 • 课题背景 • 邮件过滤技术 • 行为识别检测模型 • 数据预处理 • 仿真实验 • 主要创新点 • 结束语和展望 • 发表论文 第37/39页
发表论文 • 孙名松,王洪斌,王艳丽. 基于J2EE的加密邮件系统的设计与实现. 信息技术,2008,(3) • 董慧颖,陆莹,王洪斌,杜春燕. 客户端缓存模拟器的设计与实现. 信息技术,2008,(6) • 黄晓利,王福豹,段谓军,王洪斌. 基于在线校正的无线传感器网络定位算法. 计算机工程与应用,2008 , (6) 第38/39页
谢谢答辩委员会各位专家,请批评和指导! 第39/39页