1 / 17

华南木棉信息检索

木棉检索队 : 欧健文 ( 队长 ), 陈晓志 , 张元丰 , 胡俊刚 , 陈晓峰 jwou@scut.edu.cn. 全国搜索引擎与网上信息学术研讨会 SEWM 2005--- 中文 Web 检索. 华南木棉信息检索. 目录. 目标分析 设计实现 实验分析和总结 未来工作. 目标. 主题提取( TD ) 查找主题相关的关键资源的入口 导航搜索 HP 查找指定名字的网站的首页 NP 查找指定名字的页面. 主题提取( TD ). 主题提取( TD )的评分标准 1) 是否大部分切合主题; 2) 提供主题的可靠的信息;

erno
Download Presentation

华南木棉信息检索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 木棉检索队:欧健文(队长),陈晓志,张元丰, 胡俊刚,陈晓峰 jwou@scut.edu.cn 全国搜索引擎与网上信息学术研讨会 SEWM 2005---中文Web检索 华南木棉信息检索

  2. 目录 • 目标分析 • 设计实现 • 实验分析和总结 • 未来工作

  3. 目标 • 主题提取(TD) • 查找主题相关的关键资源的入口 • 导航搜索 • HP 查找指定名字的网站的首页 • NP 查找指定名字的页面

  4. 主题提取(TD) 主题提取(TD)的评分标准 1)是否大部分切合主题; 2)提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 要求:十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示) • 匹配度 • 查询词与文档的匹配程度 关键资源的入口 一组同主题的网页集合

  5. 导航搜索 • HP • 查找指定名字的网站的首页,什么因素说明一个 页面是home page? • NP • 查找指定名字的页面。用户所要查找的可能是某一则新闻,某种型号的产品介绍,甚者是某个公司的地址电话等

  6. 设计思路 衡量一个网页的得分通常分为两大部分 • 匹配度 1、向量空间模型+TF*IDF 2、对网页文档进行分块 标题 主题内容 主题相关内容 网页噪音 网页的链出锚本 网页的链入锚本 • 重要性 1、Pagerank 2、网站首页 3、资源入口页面

  7. 系统框架---索引 网页 链入锚点文本 网页url 网页标题 网页主题内容 链出锚点文本 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响 噪音库 最长匹配法分词 最短匹配法分词 网 页 预 处 理 中 文 分 词 文档库 索引库 链 接 分 析 连接库 区别对待站内链接和站外链接 提取网页的链接,一方面通过分析网页链接关系计算网页的pr,另一方面,可以网页得链入锚本。 Google pagerank (GPR)算法 简单pagerank (SPR)算法

  8. 系统框架---检索 TD:找出关键资源(HAC) 1、url特征 2、网页结构,目录型网页 3、网页的链出锚本 4、网页的链出网页 索引库 用户输入查询词 二次检索 结果 HP:找出首页 NP:??

  9. 系统框架---二次检索 • 站内聚合。 • 判断每个网页类型---目录型还是主题型。 • 对网页的链出文本进行分析,计算其与查询词的匹配程度。匹配程度越高,说明该网页越可能是关键资源。 • 计算该网页的链出网页与查询词的匹配程度。越多链出网页与查询词匹配,说明该网页属于关键资源的可能性就越大。

  10. 评测结果 • 这次SEWM2005评测,共提交了5组主题 检索和5组导航查询。 • 采用了链接分析技术,锚点文本,对网页进行分块处理 • 主题采用automatic,直接使用<TITLE>字段作为查询表达式 • 导航部分,分为首页和指定页面 对于所给的查询集,我们可以很容易根据查询就分辨出该查询的意图:HP or NP 所以对查询词进行标记,用H表示该查询为查找HP,而N表示要查询指定页面。

  11. 实验环境 • 实验机器为Itanium2双CPU的机器,CPU为1.5Ghz,内存为2G,机器运行操作系统为Redhat AS3.0。

  12. 实验结果

  13. 评测结果---TD

  14. 评测结果---HP/NP

  15. 总结 • 锚点文本可以很好地表示文档内容,应加大其比重。 • pagerank能够确定首页等重要页面,且精确的pagerank和近似的pagerank效果相差不大。 • 中文分词的粒度对检索精度有比较大的影响。加入中文分词可以大大减少返回不相关的文档,提高检索速度。

  16. 未来的工作 • 计算网页的重要性采用PR(site)+PR(page) • 进一步挖掘锚点文本 • 进一步优化HAC算法

  17. 谢谢大家!http://search.scut.edu.cn/

More Related