C rank deep web
This presentation is the property of its rightful owner.
Sponsored Links
1 / 25

C-Rank: 一种 Deep Web 数据记录可信度评估方法 PowerPoint PPT Presentation


  • 50 Views
  • Uploaded on
  • Presentation posted in: General

C-Rank: 一种 Deep Web 数据记录可信度评估方法. 艾静 王仲远 孟小峰 中国人民大学 WAMDM 实验室 http://idke.ruc.edu.cn. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. Deep Web 简介.

Download Presentation

C-Rank: 一种 Deep Web 数据记录可信度评估方法

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


C rank deep web

C-Rank: 一种Deep Web数据记录可信度评估方法

艾静 王仲远 孟小峰

中国人民大学WAMDM实验室

http://idke.ruc.edu.cn


C rank deep web

大纲

  • 研究背景

  • Deep Web数据记录可信度评估方法

    • 问题分析

    • S-R可信度网络

    • 局部可信度值与全局可信度值计算

  • 实验评估

  • 总结&未来工作


C rank deep web

大纲

  • 研究背景

  • Deep Web数据记录可信度评估方法

    • 问题分析

    • S-R可信度网络

    • 局部可信度值与全局可信度值计算

  • 实验评估

  • 总结&未来工作


Deep web

Deep Web简介

  • DeepWeb是一个海量信息源,信息以数据记录的形式存放

  • DeepWeb数据库是按领域(domain)划分的

  • DeepWeb数据库之间是相互孤立的,通过查询接口访问

zhaopin.com

chinahr.com

51job.com

数据记录1

数据记录1

数据记录1

数据记录2

数据记录2

数据记录2


Deep web1

DeepWeb中的信息可信性问题

如何有效地辨别每条招聘记录的可信度?

zhaopin.com

51job.com

…...

……

chinahr.com

myjob.com.cn


Deep web2

与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)

  • 用户的隐私泄露问题

  • 数据记录最优选择问题


Deep web3

与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)

  • 用户的隐私泄露问题

  • 数据记录最优选择问题

发布虚假招聘信息

收集简历

填写信用卡

申请表,

刷卡或提现!

信息骚扰、

诈骗活动!

给用户造成损失和伤害


Deep web4

与DeepWeb信息可信度相关的两个问题(以招聘信息领域为例)

名副其实

  • 用户的隐私泄露问题

  • 数据记录最优选择问题

    • 招聘公司的数量远远超过一名应聘者所能够了解的能力范围

应聘者

某招聘记录对本公司的描述

小公司

未知

情况

花费大量时间精力

皮包公司


Deep web5

Deep Web的其他领域

?

网上购书

网上预订飞机票、火车票

二手物品转让

新闻网站


C rank deep web

大纲

  • 研究背景

  • Deep Web数据记录可信度评估方法

    • 问题分析

    • S-R可信度网络

    • 局部可信度值与全局可信度值计算

  • 实验评估

  • 总结&未来工作


C rank deep web

问题分析(1)

(1)可信度值越高的网站,其发布的数据记录的可信度值也越高;

(2)Web2.0信息共享平台、Deep Web数据发布平台需要与专业机构等传统的网站平台区分开;

(3)不同数据源之间的可信度值可以通过链接相互传递;

http://labs.chinamobile.com/cmri/job.php

http://www.google.cn/

http://www.chinahr.com/

http://www.google.cn/intl/zh-CN/jobs/

http://campus.chinahr.com/2009/pages/cmri/main.asp


C rank deep web

问题分析(2)

(1)可信度值越高的网站,其发布的数据记录的可信度值也越高;

(2)Web2.0信息共享平台、Deep Web数据发布平台需要与专业机构等传统的网站平台区分开;

(3)不同数据源之间的可信度值可以通过链接相互传递;

(4) 同一数据记录在不同数据源出现次数越多,其可信度值越高。


S r 1

S-R可信度网络(1)

  • S-R可信度网络:针对Deep Web中某一条记录而构造的一个包含两种类型顶点、三种类型边的网络。


S r 2

S-R可信度网络(2)

  • 两种顶点:

Site顶点:含有数据记录的网站。

Record顶点:各个网站上的数据记录。

  • 三种边:

内部链接边:从Site顶点出发,指向它所包含Record顶点的有向边。

外部链接边:表示记录与记录,以及记录与外部数据源之间链接关系的有向边。

实体识别边:通过实体识别技术验证,表示同一实体但属于不同数据源之间的无向边。


C rank deep web

局部可信度值计算(1)

  • 局部可信度值:在S-R可信度网络中,每一个Record顶点的可信度值称为局部可信度值

  • 基于可信度传播的思想,经过n次可信度值传播后的顶点可信度值,迭代计算第n+1次传播后顶点的可信度值:

利用PageRank以及ObjectRank的基本思想, 进行可信度传播计算

A是一个m×m的矩阵,A中的每一个元素是一条边的实际传播率


C rank deep web

局部可信值计算(2)

  • 传播率类型

  • 对于S-R图中的每一条边

    • 判断它是属于哪种类型的边

    • 计算属于这种传播率类型的边的出度

    • 再计算这条边的实际传播率

  • 边,传播率类型为,这条边的实际传播率为


C rank deep web

全局可信度值计算

  • 全局可信度值:整个S-R可信度网络的可信度值,它代表了此S-R网络对应的招聘记录在Web上的总体可信度值

  • 方法一:求和法

  • 方法二:最大值法

  • 方法三:顶点加权法

优点:反映了一条记录重复出现次数越多,可信度值越高的情况

缺点:无法正确处理虚假信息恶意转载

优点:综合考虑了“问题分析”中的所有因素,较为真实准确

缺点:权值的确定

优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的

缺点:无法正确处理中小型公司的招聘信息可信度问题


C rank deep web

大纲

  • 研究背景

  • Deep Web数据记录可信度评估方法

    • 问题分析

    • S-R可信度网络

    • 局部可信度值与全局可信度值计算

  • 实验评估

  • 总结&未来工作


C rank deep web

实验设置

  • 目的:验证C-Rank方法的有效性与合理性

  • 数据集获得:

    • 我们使用Jobtong(一个工作信息领域的数据集成原型系统)从Deep Web数据源中爬取招聘信息记录

    • 用Jobtong取到任意的900条不同的招聘记录

    • 手工加入100条不可信的招聘记录

  • 将计算的可信度值标准化为[0,1]区间内的值


C rank deep web

记录可信度分布散点图

可信度值

招聘信息记录


C rank deep web

不同可信度等级的记录数

记录数量

可信度等级

可信度值平均分为5个区间:[0, 0.2), [0.2, 0.4),……, [0.8, 1]


C rank deep web

用户对于记录可信度分值的评价结果

记录数量

用户

10名用户评价的平均合理率达到94.2%,而认为偏高或偏低的记录只占1.8%及2.7%,认为不合理的记录仅占1.3%


C rank deep web

大纲

  • 研究背景

  • Deep Web数据记录可信度评估方法

    • 问题分析

    • S-R可信度网络

    • 局部可信度值与全局可信度值计算

  • 实验评估

  • 总结&未来工作


C rank deep web

总结&未来工作

  • 本文提出了一种基于传播机制的Deep Web数据记录可信度评估方法

  • 该方法为每一条记录构造一个S-R可信度网络

  • 通过计算S-R网络的局部可信度值以及全局可信度值得到DeepWeb数据记录的可信度值

  • 未来搜索引擎:按相关度排序/按可信度排序

  • 未来扩展工作

    • 考虑实体识别中不准确因素所导致的S-R可信度网络中的噪音

    • 不仅仅考虑链接关系所产生的可信度传播,还需要考虑数据质量问题


C rank deep web

谢谢Q&A


  • Login