130 likes | 317 Views
第五届全国搜索引擎和网上信息挖掘学术研讨会. SEWM 2007 中文 web 检索评测报告 江西师范大学 报告人 : 曹瑛. 内容提纲. 评测目标 系统设计 实验结果 未来工作. 评测目标. 主题提取( TD ) 查找主题相关的关键资源的入口 导航搜索 (HPNP) HP 查找指定名字的网站的首页 NP 查找指定名字的页面. 主题提取. TD 任务分析 不能按照网页相似度大小来判断 站点是从一组相关网页的入口 网页深度一般不会大于 4. 导航搜索. 导航搜索 (HPNP) 主页查找
E N D
第五届全国搜索引擎和网上信息挖掘学术研讨会第五届全国搜索引擎和网上信息挖掘学术研讨会 SEWM 2007 中文web检索评测报告 江西师范大学 报告人:曹瑛
内容提纲 • 评测目标 • 系统设计 • 实验结果 • 未来工作
评测目标 • 主题提取(TD) • 查找主题相关的关键资源的入口 • 导航搜索 (HPNP) • HP 查找指定名字的网站的首页 • NP 查找指定名字的页面
主题提取 TD 任务分析 • 不能按照网页相似度大小来判断 • 站点是从一组相关网页的入口 • 网页深度一般不会大于4
导航搜索 导航搜索 (HPNP) • 主页查找 • 检索返回的相关网页可能只来源于某几个网站 • 主页大部分是以“/”结尾,或者结尾包含“index”,“default”单词 • 指定页面查找 • 一般可以按照网页的检索评分得到结果 • 查询任务和网页的title基本一致
系统设计 CWT200g 解压缩 分析网页 查询任务分析 初次排序结果 分词 TD/HPNP 检索 二次检索 预处理 建立索引
系统设计 • 分析网页 • 去掉冗余信息,只保留title和body的标签内容 • 分词 • 北大天网提供的CHSeg分词程序 • 统计词频
系统设计 • 查询分析 • 手动判断,分开HP和NP查询 • 对查询进行分词,统计词频 • 索引和检索 • 开源lucene • 对提取的title和body建立索引 • 检索中运用向量模型 • 权重计算公式 W( ti, dj)=
二次排序 针对不同的查询任务采取不同策略 • HP • 查找主页首先要进行网页站点聚类,每个网站取出若干根据规则得到的主页后选页面,然后按照title: body=4:1重新评分,进行排序 • NP • 不进行二次排序 • TD • 首先要进行网页站点聚类,每个网站取出根据规则得到的候选页面,然后按照title: body=1:4重新评分,进行排序
提交结果 • RUN1 • firtex工具 • RUN2 • 用title和body检索 • RUN3 • 只用title进行检索
实验环境 • 操作系统 redhat9.0 • 系统配置 • 2.8G CPU ,内存4G • 编程语言 java
总结和未来工作 • 网页结构提取 • 网页分块 • 字体大小、文字样式 • 词的位置关系 • 链接关系分析 • 锚文本的利用 • 检索模型的更新