1 / 47

抄袭检测

抄袭检测. “[I am] translating the black and white impressions into another language –that of colour”. 黑龙江工程学院在抄袭检测中的研究进展 报告人:孔蕾蕾. 报告人简介. 黑龙江工程学院计算机科学与技术学院信息管理与信息系统系副主任 黑龙江工程学院云计算与大数据工程技术中心成员 哈尔滨工程大学信息与通信工程专业在读博士. 黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在 PAN@CLEF 2012 、 2013 上的成绩

barto
Download Presentation

抄袭检测

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 抄袭检测 Heilongjiang Institute of Technology Kong Leilei

  2. “[I am] translating the black and white impressions into another language –that of colour” Heilongjiang Institute of Technology Kong Leilei

  3. 黑龙江工程学院在抄袭检测中的研究进展报告人:孔蕾蕾黑龙江工程学院在抄袭检测中的研究进展报告人:孔蕾蕾

  4. 报告人简介 • 黑龙江工程学院计算机科学与技术学院信息管理与信息系统系副主任 • 黑龙江工程学院云计算与大数据工程技术中心成员 • 哈尔滨工程大学信息与通信工程专业在读博士

  5. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来的工作 报告内容 5

  6. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来的工作 报告内容 6

  7. 工程技术中心简介 • 2012年成立,学校投入150万元进行了环境改造、设备更新 • 其前身是2007年成立的校自然语言处理实验室 • 主要研究人员 • 齐浩亮 ,教授,博士,中心主任 • 韩中元,副教授,在读博士,软件工程系副主任 • 安波,副教授,计算机科学与技术系主任 • 王亚东,副教授,物联网系(筹)主任 • 李军,副教授,软件工程系主任 • 孔蕾蕾,讲师,在读博士,信息管理与信息系统系副主任

  8. 研究方向 大数据处理 信息过滤 抄袭检测 信息检索 云 计 算

  9. 中心主任简介 • 齐浩亮,1972年2月生,博士,教授 • 校自然语言处理实验室主任、计算机应用技术研究所 所长 • 中国中文信息学会,理事 • 中国中文信息学会国际专委会,委员 • 中国中文信息学会社会媒体处理专委会,委员 • YOCSEF(中国计算机学会青年论坛)哈尔滨2009、2010、2011,副主席 • 黑龙江省首届教学新秀 • 2008年获“黑龙江省杰出(优秀)青年科技创新奖” • 近期通过了龙江学者初评

  10. 承担的国家自然科学基金项目

  11. 主要评测成绩

  12. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来的工作 报告内容 12

  13. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来工作 报告内容 13

  14. 国内外研究现状 • 抄袭的一般模式 Heilongjiang Institute of Technology Kong Leilei 14

  15. 国内外研究现状 • 抄袭检测:术语 • 抄袭,一般理解为将他人作品的全部或部分,以或多或少改变形式或内容的方式,当作自己的作品发表[1]。 • 剽窃,主要指将他人的语言文字或研究观点当作自己的成果而不加引用的公开发表[2]。 • 抄袭检测,定义s=(splg, dplg,ssrc,dsrc),其中,splg为文档dplg中的一段,splg抄袭了文档dsrc中的某个段ssrc。定义r=(rplg, dplg, rsrc, d′src),如果splg∩rplg≠Φ, ssrc∩rsrc≠Φ, dsrc∩d′src≠Φ,则称r检测出了s,这个过程称为抄袭检测[2]。 • [1]世界知识产权组织,《版权和邻接权法律术语词汇》,1980. • [2]Martin Potthast, Andreas Eiselt, Alberto Barrón Cedeño, Benno Stein1, and Paolo Rosso2. Overview of the 3rd International Competition on Plagiarism Detection. Overview for PAN at CLEF 2011. 2012-10-9 Heilongjiang Institute of Technology Kong Leilei 15

  16. 国内外研究现状 • 目前,文本抄袭检测的研究主要分为两类: • 内部抄袭检测 • 外部抄袭检测 Heilongjiang Institute of Technology Kong Leilei 16

  17. 国内外研究现状 • 内部抄袭检测 • 给定一篇文章,在不借助任何外界参考资料的情况下(假设参考资料集合不能预先获得或不能自由获取),判定该文章是否抄袭、剽窃或复制于一篇或多篇文章的内容。 • 写作风格模型、异常值检测算法等为主流方法。 Heilongjiang Institute of Technology Kong Leilei 17

  18. 国内外研究现状 • 外部抄袭检测 • 外部抄袭检测假定存在一个封闭的参考资料集合,在此前提下,给定一篇待检测文本,从参考文档集合中检索与待检测文本相似度超过一定阈值的文本。 Heilongjiang Institute of Technology Kong Leilei 18

  19. 国内外研究现状 • 抄袭的分类:简单抄袭和高模糊度的抄袭[3] • 简单抄袭:原文复制、近似复制、修改复制。 • 高模糊度的抄袭:意译抄袭、总结抄袭、翻译抄袭、观点抄袭。 [3] Salha M. Alzahrani, Naomie Salim, Ajith Abraham. Understanding Plagiarism Linguistic Patterns, Textual Features, and Detection Methods. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS, VOL. 42, NO. 2, MARCH 2012. Heilongjiang Institute of Technology Kong Leilei 19

  20. 国内外研究现状 • 简单抄袭 Heilongjiang Institute of Technology Kong Leilei 20

  21. 国内外研究现状 • 意译(paraphrasing)抄袭 Heilongjiang Institute of Technology Kong Leilei 21

  22. 国内外研究现状 • 总结抄袭 Heilongjiang Institute of Technology Kong Leilei 22

  23. 国内外研究现状 • 翻译抄袭 Heilongjiang Institute of Technology Kong Leilei 23

  24. 国内外研究现状 • 学术论文的观点(idea)抄袭 Heilongjiang Institute of Technology Kong Leilei 24

  25. 国内外研究现状 • 抄袭检测常用的文本特征 • 词汇特征 • 句法特征 • 语义特征 • 结构特征 Heilongjiang Institute of Technology Kong Leilei 25

  26. PAN@CLEF 抄袭检测评测 CLEF(Cross-Language Evaluation Forum):是在欧盟数字图书馆计划支持下举办的跨语言信息检索开放评测平台。 CLEF于2000年开始举办,现已成为最著名的国际信息检索评测会议之一。 PAN(Plagiarism detection, Author identification, Author Profiling) 致力于抄袭检测算法的评估 2010年加入CLEF 国内外研究现状 Heilongjiang Institute of Technology Kong Leilei 26

  27. PAN近4年在抄袭检测方面的评测任务 国内外研究现状 • 内部抄袭检测 • 外部抄袭检测 • 内部抄袭检测 • 外部抄袭检测 • 源检索 • 文本对齐 • 备选文档检索 • 详细比对 2010 2011 2012 2013 Heilongjiang Institute of Technology Kong Leilei 27

  28. 源检索 提交的查询数目 需要下载的网页数目 精确率和召回率 找到第一个抄袭源时提交的查询的数目 找到第一个抄袭源时下载的网页的数目 抄袭源在检索结果中的排序 文本对齐 召回率 精确率 gran plagdet PAN@CLEF 抄袭检测评估方法 Heilongjiang Institute of Technology Kong Leilei 28

  29. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来工作 报告内容 29

  30. PAN@CLEF2012 详细比对子任务第一名 PAN@CLEF2013 文本对齐高模糊抄袭检测第一名 文本对齐翻译抄袭检测第一名 源检索任务:召回率及找到第一个抄袭源时提交的查询的数目两个指标上第一名 中心在PAN@CLEF [4] http://pan.webis.de Heilongjiang Institute of Technology Kong Leilei 30

  31. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来工作 报告内容 31

  32. 系统处理过程框架 待检测文档 备选 文档集 源检索 文本对齐 可详 疑细 片信 段息 海量网络资源 文档集合 Heilongjiang Institute of Technology Kong Leilei 32

  33. 系统处理过程框架 待检测文档 备选 文档集 源检索 文本对齐 可详 疑细 片信 段息 海量网络资源 文档集合 Heilongjiang Institute of Technology Kong Leilei 33

  34. 在源检索中 多种可疑文档查询关键词提取方法 查询关键词的排序 备选文档的筛选 系统处理过程框架 Heilongjiang Institute of Technology Kong Leilei 34

  35. 系统处理过程框架 待检测文档 备选 文档集 源检索 文本对齐 可详 疑细 片信 段息 海量网络资源 文档集合 Heilongjiang Institute of Technology Kong Leilei 35

  36. 系统处理过程框架 • 在文本对齐中:匹配与合并 匹配 合并 预处理 Heilongjiang Institute of Technology Kong Leilei 36

  37. 系统处理过程框架 • 在文本对齐中:匹配与合并 匹配 合并 预处理 • 双向交替合并算法(Bilateral Alternating Merging Arithmetic) • 基于图的最大联通路径 Heilongjiang Institute of Technology Kong Leilei 37

  38. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来的工作 报告内容 38

  39. “鹰眼抄袭检测系统”在 PAN@CLEF2012 • 子任务: 备选文档检索[4] [4] http://pan.webis.de Heilongjiang Institute of Technology Kong Leilei 39

  40. 子任务: 详细比对[4] “鹰眼抄袭检测系统”在 PAN@CLEF2012 [4] http://pan.webis.de Heilongjiang Institute of Technology Kong Leilei 40

  41. 子任务: 文本对齐高模糊抄袭的检测[4] “鹰眼抄袭检测系统”在 PAN@CLEF2013 [4] http://pan.webis.de Heilongjiang Institute of Technology Kong Leilei 41

  42. 子任务: 文本对齐翻译抄袭的检测[4] “鹰眼抄袭检测系统”在 PAN@CLEF2013 [4] http://pan.webis.de Heilongjiang Institute of Technology Kong Leilei 42

  43. 子任务: 源检索[4] “鹰眼抄袭检测系统”在 PAN@CLEF2013 [4] http://pan.webis.de Heilongjiang Institute of Technology Kong Leilei 43

  44. 黑龙江工程学院云计算与大数据工程技术中心简介黑龙江工程学院云计算与大数据工程技术中心简介 中心在抄袭检测上的最新进展 国内外研究现状 中心在PAN@CLEF 2012、2013上的成绩 黑龙江工程学院“鹰眼抄袭检测系统”介绍 “鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能 未来的工作 报告内容 44

  45. 基于多特征融合的抄袭检测文本对齐 跨语言抄袭检测 中文抄袭检测系统的研究与开发 …… 未来的工作 Heilongjiang Institute of Technology Kong Leilei 45

  46. 处于跨越式发展阶段的工程技术中心迫切渴望优秀人才加盟!处于跨越式发展阶段的工程技术中心迫切渴望优秀人才加盟! 提供不低于学校公开招聘的待遇(包括科项目配套费1:1、周转房、配偶工作、安家费、科研启动费、工作条件等)。 期待您的加入 Heilongjiang Institute of Technology Kong Leilei 46

  47. 凝练特色,一流成果 协同创新,服务社会

More Related