250 likes | 405 Views
C-Rank: 一种 Deep Web 数据记录可信度评估方法. 艾静 王仲远 孟小峰 中国人民大学 WAMDM 实验室 http://idke.ruc.edu.cn. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. Deep Web 简介.
E N D
C-Rank: 一种Deep Web数据记录可信度评估方法 艾静 王仲远 孟小峰 中国人民大学WAMDM实验室 http://idke.ruc.edu.cn
大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作
大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作
Deep Web简介 • DeepWeb是一个海量信息源,信息以数据记录的形式存放 • DeepWeb数据库是按领域(domain)划分的 • DeepWeb数据库之间是相互孤立的,通过查询接口访问 zhaopin.com chinahr.com 51job.com … … … 数据记录1 数据记录1 数据记录1 数据记录2 数据记录2 数据记录2
DeepWeb中的信息可信性问题 如何有效地辨别每条招聘记录的可信度? zhaopin.com 51job.com …... …… chinahr.com myjob.com.cn
与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例) • 用户的隐私泄露问题 • 数据记录最优选择问题
与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例) • 用户的隐私泄露问题 • 数据记录最优选择问题 发布虚假招聘信息 收集简历 填写信用卡 申请表, 刷卡或提现! 信息骚扰、 诈骗活动! 给用户造成损失和伤害
与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例) 名副其实 • 用户的隐私泄露问题 • 数据记录最优选择问题 • 招聘公司的数量远远超过一名应聘者所能够了解的能力范围 应聘者 某招聘记录对本公司的描述 小公司 未知 情况 花费大量时间精力 皮包公司
Deep Web的其他领域 ? 网上购书 网上预订飞机票、火车票 二手物品转让 新闻网站
大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作
问题分析(1) (1) 可信度值越高的网站,其发布的数据记录的可信度值也越高; (2) Web2.0信息共享平台、Deep Web数据发布平台需要与专业机构等传统的网站平台区分开; (3) 不同数据源之间的可信度值可以通过链接相互传递; http://labs.chinamobile.com/cmri/job.php http://www.google.cn/ http://www.chinahr.com/ http://www.google.cn/intl/zh-CN/jobs/ http://campus.chinahr.com/2009/pages/cmri/main.asp
问题分析(2) (1) 可信度值越高的网站,其发布的数据记录的可信度值也越高; (2) Web2.0信息共享平台、Deep Web数据发布平台需要与专业机构等传统的网站平台区分开; (3) 不同数据源之间的可信度值可以通过链接相互传递; (4) 同一数据记录在不同数据源出现次数越多,其可信度值越高。
S-R可信度网络(1) • S-R可信度网络:针对Deep Web中某一条记录而构造的一个包含两种类型顶点、三种类型边的网络。
S-R可信度网络(2) • 两种顶点: Site顶点:含有数据记录的网站。 Record顶点:各个网站上的数据记录。 • 三种边: 内部链接边:从Site顶点出发,指向它所包含Record顶点的有向边。 外部链接边:表示记录与记录,以及记录与外部数据源之间链接关系的有向边。 实体识别边:通过实体识别技术验证,表示同一实体但属于不同数据源之间的无向边。
局部可信度值计算(1) • 局部可信度值:在S-R可信度网络中,每一个Record顶点的可信度值称为局部可信度值 • 基于可信度传播的思想,经过n次可信度值传播后的顶点可信度值,迭代计算第n+1次传播后顶点的可信度值: 利用PageRank以及ObjectRank的基本思想, 进行可信度传播计算 A是一个m×m的矩阵,A中的每一个元素是一条边的实际传播率
局部可信值计算(2) • 传播率类型 • 对于S-R图中的每一条边 • 判断它是属于哪种类型的边 • 计算属于这种传播率类型的边的出度 • 再计算这条边的实际传播率 • 边,传播率类型为,这条边的实际传播率为
全局可信度值计算 • 全局可信度值:整个S-R可信度网络的可信度值,它代表了此S-R网络对应的招聘记录在Web上的总体可信度值 • 方法一:求和法 • 方法二:最大值法 • 方法三:顶点加权法 优点:反映了一条记录重复出现次数越多,可信度值越高的情况 缺点:无法正确处理虚假信息恶意转载 优点:综合考虑了“问题分析”中的所有因素,较为真实准确 缺点:权值的确定 优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的 缺点:无法正确处理中小型公司的招聘信息可信度问题
大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作
实验设置 • 目的:验证C-Rank方法的有效性与合理性 • 数据集获得: • 我们使用Jobtong(一个工作信息领域的数据集成原型系统)从Deep Web数据源中爬取招聘信息记录 • 用Jobtong取到任意的900条不同的招聘记录 • 手工加入100条不可信的招聘记录 • 将计算的可信度值标准化为[0,1]区间内的值
记录可信度分布散点图 可信度值 招聘信息记录
不同可信度等级的记录数 记录数量 可信度等级 可信度值平均分为5个区间:[0, 0.2), [0.2, 0.4),……, [0.8, 1]
用户对于记录可信度分值的评价结果 记录数量 用户 10名用户评价的平均合理率达到94.2%,而认为偏高或偏低的记录只占1.8%及2.7%,认为不合理的记录仅占1.3%
大纲 • 研究背景 • Deep Web数据记录可信度评估方法 • 问题分析 • S-R可信度网络 • 局部可信度值与全局可信度值计算 • 实验评估 • 总结&未来工作
总结&未来工作 • 本文提出了一种基于传播机制的Deep Web数据记录可信度评估方法 • 该方法为每一条记录构造一个S-R可信度网络 • 通过计算S-R网络的局部可信度值以及全局可信度值得到DeepWeb数据记录的可信度值 • 未来搜索引擎:按相关度排序/按可信度排序 • 未来扩展工作 • 考虑实体识别中不准确因素所导致的S-R可信度网络中的噪音 • 不仅仅考虑链接关系所产生的可信度传播,还需要考虑数据质量问题