1 / 25

C-Rank: 一种 Deep Web 数据记录可信度评估方法

C-Rank: 一种 Deep Web 数据记录可信度评估方法. 艾静 王仲远 孟小峰 中国人民大学 WAMDM 实验室 http://idke.ruc.edu.cn. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. Deep Web 简介.

sheena
Download Presentation

C-Rank: 一种 Deep Web 数据记录可信度评估方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. C-Rank: 一种Deep Web数据记录可信度评估方法 艾静 王仲远 孟小峰 中国人民大学WAMDM实验室 http://idke.ruc.edu.cn

  2. 大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作

  3. 大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作

  4. Deep Web简介 • DeepWeb是一个海量信息源,信息以数据记录的形式存放 • DeepWeb数据库是按领域(domain)划分的 • DeepWeb数据库之间是相互孤立的,通过查询接口访问 zhaopin.com chinahr.com 51job.com … … … 数据记录1 数据记录1 数据记录1 数据记录2 数据记录2 数据记录2

  5. DeepWeb中的信息可信性问题 如何有效地辨别每条招聘记录的可信度? zhaopin.com 51job.com …... …… chinahr.com myjob.com.cn

  6. 与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例) • 用户的隐私泄露问题 • 数据记录最优选择问题

  7. 与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例) • 用户的隐私泄露问题 • 数据记录最优选择问题 发布虚假招聘信息 收集简历 填写信用卡 申请表, 刷卡或提现! 信息骚扰、 诈骗活动! 给用户造成损失和伤害

  8. 与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例) 名副其实 • 用户的隐私泄露问题 • 数据记录最优选择问题 • 招聘公司的数量远远超过一名应聘者所能够了解的能力范围 应聘者 某招聘记录对本公司的描述 小公司 未知 情况 花费大量时间精力 皮包公司

  9. Deep Web的其他领域 ? 网上购书 网上预订飞机票、火车票 二手物品转让 新闻网站

  10. 大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作

  11. 问题分析(1) (1) 可信度值越高的网站,其发布的数据记录的可信度值也越高; (2) Web2.0信息共享平台、Deep Web数据发布平台需要与专业机构等传统的网站平台区分开; (3) 不同数据源之间的可信度值可以通过链接相互传递; http://labs.chinamobile.com/cmri/job.php http://www.google.cn/ http://www.chinahr.com/ http://www.google.cn/intl/zh-CN/jobs/ http://campus.chinahr.com/2009/pages/cmri/main.asp

  12. 问题分析(2) (1) 可信度值越高的网站,其发布的数据记录的可信度值也越高; (2) Web2.0信息共享平台、Deep Web数据发布平台需要与专业机构等传统的网站平台区分开; (3) 不同数据源之间的可信度值可以通过链接相互传递; (4) 同一数据记录在不同数据源出现次数越多,其可信度值越高。

  13. S-R可信度网络(1) • S-R可信度网络:针对Deep Web中某一条记录而构造的一个包含两种类型顶点、三种类型边的网络。

  14. S-R可信度网络(2) • 两种顶点: Site顶点:含有数据记录的网站。 Record顶点:各个网站上的数据记录。 • 三种边: 内部链接边:从Site顶点出发,指向它所包含Record顶点的有向边。 外部链接边:表示记录与记录,以及记录与外部数据源之间链接关系的有向边。 实体识别边:通过实体识别技术验证,表示同一实体但属于不同数据源之间的无向边。

  15. 局部可信度值计算(1) • 局部可信度值:在S-R可信度网络中,每一个Record顶点的可信度值称为局部可信度值 • 基于可信度传播的思想,经过n次可信度值传播后的顶点可信度值,迭代计算第n+1次传播后顶点的可信度值: 利用PageRank以及ObjectRank的基本思想, 进行可信度传播计算 A是一个m×m的矩阵,A中的每一个元素是一条边的实际传播率

  16. 局部可信值计算(2) • 传播率类型 • 对于S-R图中的每一条边 • 判断它是属于哪种类型的边 • 计算属于这种传播率类型的边的出度 • 再计算这条边的实际传播率 • 边,传播率类型为,这条边的实际传播率为

  17. 全局可信度值计算 • 全局可信度值:整个S-R可信度网络的可信度值,它代表了此S-R网络对应的招聘记录在Web上的总体可信度值 • 方法一:求和法 • 方法二:最大值法 • 方法三:顶点加权法 优点:反映了一条记录重复出现次数越多,可信度值越高的情况 缺点:无法正确处理虚假信息恶意转载 优点:综合考虑了“问题分析”中的所有因素,较为真实准确 缺点:权值的确定 优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的 缺点:无法正确处理中小型公司的招聘信息可信度问题

  18. 大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作

  19. 实验设置 • 目的:验证C-Rank方法的有效性与合理性 • 数据集获得: • 我们使用Jobtong(一个工作信息领域的数据集成原型系统)从Deep Web数据源中爬取招聘信息记录 • 用Jobtong取到任意的900条不同的招聘记录 • 手工加入100条不可信的招聘记录 • 将计算的可信度值标准化为[0,1]区间内的值

  20. 记录可信度分布散点图 可信度值 招聘信息记录

  21. 不同可信度等级的记录数 记录数量 可信度等级 可信度值平均分为5个区间:[0, 0.2), [0.2, 0.4),……, [0.8, 1]

  22. 用户对于记录可信度分值的评价结果 记录数量 用户 10名用户评价的平均合理率达到94.2%,而认为偏高或偏低的记录只占1.8%及2.7%,认为不合理的记录仅占1.3%

  23. 大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作

  24. 总结&未来工作 • 本文提出了一种基于传播机制的Deep Web数据记录可信度评估方法 • 该方法为每一条记录构造一个S-R可信度网络 • 通过计算S-R网络的局部可信度值以及全局可信度值得到DeepWeb数据记录的可信度值 • 未来搜索引擎:按相关度排序/按可信度排序 • 未来扩展工作 • 考虑实体识别中不准确因素所导致的S-R可信度网络中的噪音 • 不仅仅考虑链接关系所产生的可信度传播,还需要考虑数据质量问题

  25. 谢谢Q&A

More Related