slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
SEWM2007 垃圾邮件过滤系统评测 PowerPoint Presentation
Download Presentation
SEWM2007 垃圾邮件过滤系统评测

Loading in 2 Seconds...

play fullscreen
1 / 53

SEWM2007 垃圾邮件过滤系统评测 - PowerPoint PPT Presentation


  • 94 Views
  • Uploaded on

SEWM2007 垃圾邮件过滤系统评测. 邮件评测小组 antispam@scut.edu.cn 华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室. 主要内容. 测评背景与目的 数据集生成方法 数据集统计特征 过滤评测标准 测评结果分析 总结与讨论. 测评背景与目的. 测评背景. 垃圾邮件的泛滥 规模上的增长 技术上的提高 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'SEWM2007 垃圾邮件过滤系统评测' - fredericka-hunter


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

SEWM2007垃圾邮件过滤系统评测

邮件评测小组antispam@scut.edu.cn华南理工大学信息网络工程研究中心广东省计算机网络重点实验室

slide2
主要内容
  • 测评背景与目的
  • 数据集生成方法
  • 数据集统计特征
  • 过滤评测标准
  • 测评结果分析
  • 总结与讨论
slide4
测评背景
  • 垃圾邮件的泛滥
    • 规模上的增长
    • 技术上的提高
  • 反垃圾技术不断更新
    • 目前各种技术各有优缺点
    • 技术的更新始终没有跟上垃圾邮件的“进步”
  • 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流
  • 相对于英文,中文垃圾邮件过滤在技术、语料库等方面有较大差距。
slide5
测评目的
  • 希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台 ;
  • 提高国内垃圾邮件过滤系统的性能;
  • 丰富一个以中文为主的邮件数据集;
  • 提供一个标准的开放垃圾邮件测试工具。
slide7
生成的原则
  • 真实反映实际系统所接收的邮件流
    • 内容特征
    • 到达过程
  • 适当加工以适应评测要求
    • 去除垃圾邮件中的冗余部分
    • 合成部分正常邮件
    • 其它(去除隐私等)
slide8
数据集生成--邮件流内容特征
  • 语言
    • 中文
    • 其他
  • 编码方式
    • Base64
    • 7Bit
    • etc.
  • 附件类型
    • gif, doc...
  • 邮件长度
slide9
数据集生成--到达过程
  • 不同时段的密度分布(基于校园网的邮件日志)
  • 垃圾/正常邮件的出现频率
    • 大约3:1
slide10
垃圾邮件来源
  • 真实垃圾邮件
    • 校园网垃圾邮件过滤系统过滤下来的垃圾邮件
    • 用户报告垃圾邮件
  • 涵盖90%以上的垃圾邮件
slide11
数据集加工—去除垃圾邮件冗余(1)
  • 超过60%的垃圾邮件为重复发送
slide12
数据集加工—去除垃圾邮件冗余(2)
  • 去除方法
    • 基于模糊指纹
    • 仅有细小差别的邮件视为相同
    • 适当保留少量冗余(2~5封)
  • 去除结果
    • Public数据集
      • 样本大小:234,592
      • 挑选结果:45,000
    • Private数据集
      • 样本大小:317,714
      • 挑选结果:55,506
    • 初始候选集:> 2,000,000
slide13
数据集加工—合成正常邮件
  • 使用真实邮件的头信息
  • 从Web上抓取邮件内容
    • 多类别、多编码、以中文为主
    • 自动生成附件
    • 长度分布与实际情况吻合
    • 考虑与垃圾邮件特征词的适当交叉
  • 加入部分实际正常邮件(由志愿者贡献)
slide14
数据集加工—后续处理
  • 去除(可能的)隐私信息
    • IP地址、服务器名、用户名等
  • 选择典型时段
    • 选择标准
      • 邮件数量
      • 到达频次
  • 按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。
  • 重新命名
  • 封装打包
slide15
数据集生成结果
  • 数据集主要分为两个部分,一部分为公开数据集(Public Corpus)共60000封( 45,000 垃圾邮件+15,000正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)共75506( 55,506 垃圾邮件+20,000正常邮件)封作为测评主办单位主要评测标准。
  • 两个数据集都是由数据文件(data)和索引文件(index)组成 ,Private数据集的索引文件则不公开
slide16
垃圾邮件样本示例
  • 文字变形—影响过滤器的特征词提取
  • 干扰文字—改变邮件的词频分布特征
  • 细微差别—避开基于校验码的过滤器
  • 图片变形—OCR也无能为力
  • 文字变图—图片垃圾是spammers的利器
slide19
垃圾邮件样本示例—文字变形(3)
  • Viagra的多种拼写:
  • 共600,426,974,379,824,381,952种拼写方式!
slide25
垃圾邮件样本示例—文字变图
  • 邮件的全部内容----图片
slide32
测评标准
  • 本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果(index文件中的判别)为答案,计算出过滤器的误过滤hm%、sm%,根据hm%、sm%得到三个指标:

平均误过滤lam%、ROCA、h=.1

slide33
测评类型
  • 离线型
      • 先用Public集训练,再用Private集测试
  • 在线型(反馈)
      • 边测试Private集边对过滤器进行训练
slide34
测评相关公式
  • hm%:正常邮件错误判断为垃圾邮件的误过滤率

sm%:垃圾邮件错误判断为正常邮件的误过滤率

(1-ROCA)%:以hm%为横坐标,以sm%为纵坐标,取不同的阈值t时,做ROC曲线,求ROC曲线上方面积。

h=.1:hm%=0.1时,sm%的值

  • 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据(1-ROCA)%值为最终判断,lam%、h=.1作为参考
slide35
测评标准-ROCA计算原理
  • 对于每个邮件,过滤器会产生一个score值,反映该邮件为spam的可能性。过滤器会确定自己的阈值t;当score>t时,邮件为spam,否则,邮件为ham
  • 若确定了所有邮件的score值,我们可以通过动态调整阈值t来获得每种可能的hm%以及对应的sm%,即通过动态调整阈值t,我们可以将sm%表示成hm%的某个函数,从而画出ROC曲线图

参考:TREC 2005 Spam Track Overview

slide36
测评标准-ROCA计算原理
  • ROC曲线下面部分的面积反映了在所有可能值上过滤器效率(effectiveness)的一个累计度量,从而避免用单一的hm%或sm%进行衡量的局限性。
  • 当我们衡量failure,而非effectiveness时,可以使用(1-ROCA)%,此时则对应于ROC曲线上面部分的面积。
slide38
参赛队伍测试结果
  • ZJU
  • HAINU

ham spam

ham 16232 169

Spam 3768 54887

-----------------------------

Total 20000 55056

ham spam

ham 1450 2062

Spam 18550 52994

----------------------------

Total 20000 55056

slide41
DMC过滤方法简介
  • 采用统计数据压缩技术;
  • 将邮件作为字节流,无需常规特征提取的步骤(Tokenization, etc);
  • 可以提取字符或二进制流层次上的特征做为过滤标准;
  • 具有快速判别和动态更新的特点;
  • 实际过滤结果明显优于bogofilter。

Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan,Spam Filtering Using Statistical Data Compression Models,Journal of Machine Learning Research,Dec. 2006. pp 2673--2698

bogofilter
Bogofilter过滤方法简介
  • 基于Bayes原理;
  • 自动分析邮件文本或者标准输入文本,基于设定

的正常或者垃圾邮件信息判断邮件属性,并返回邮件是否属于垃圾邮件;

  • 通过对邮件的头(header)和内容(body)进行统计分析来分类,并能通过用户的分类和纠正来学习;
  • 对附件名进行统计,但是忽略附件内容,如图片等 。

http://bogofilter.sourceforge.net/

slide43
离线型测评结果分析(1)
  • 结果对比表-全部邮件
slide44
离线型测评结果分析(1)
  • 结果对比图-全部邮件
slide45
离线型测评结果分析(2)
  • 结果对比表-仅中文邮件
slide46
离线型测评结果分析(2)
  • 结果对比图-仅中文邮件
slide47
在线型(反馈)测评结果分析
  • 结果对比表-全部邮件
slide48
在线型(反馈)测评结果分析
  • 结果对比图-全部邮件
slide50
总结与讨论
  • 本次邮件过滤测评总体来说准确性较高,达到了测评目的,但还有以下几点不足之处:
    • 仅仅对结果进行了测评,而对具体邮件过滤系统的效率没有进行测试
    • 邮件集难度不够,应该有意识的增加邮件类型以加大测评难度
    • 与实际邮件环境尚有一定的差距
slide51
总结与讨论
  • 数据集的不足之处:
    • 正常邮件大多数为人工合成,其特征与实际系统会有差异;
    • 垃圾邮件中中文比例比实际情况略高;
    • 先后到达的邮件在内容上是独立的,而实际系统则具有相关性
      • 例如:回复邮件中往往包含原邮件内容
    • 规模偏小
slide52
总结与讨论
  • 下一步的工作展望:
    • 进一步的研究与分析垃圾邮件的最新特征
    • 更加逼近真实邮件环境
    • 对测评系统进行改进,使其支持在线、离线测试以及反馈等各种需求
    • 加大和国际与国内反垃圾邮件组织的联系,为反垃圾邮件共同努力