330 likes | 423 Views
社会综述在协作网络检索中的应用. Oisı´n Boydella & Barry Smyth. 汇报人 : 童蕾 学号 :10200134. 文章框架. 1 简介 2 背景 2.1 个性化检索 2.2 协作信息检索 2.3 网页综述 2.4 检索界面 3 社会综述在协作网络检索中的应用 3.1 基于片段的文件代理 3.2 生成社会摘要 3.3 社会总结举例 4 在网络检索中使用社会综述 4.1 基于查询的社会综述 4.2 综合摘要 5 评价 6 讨论 7 总结. 摘要.
E N D
社会综述在协作网络检索中的应用 Oisı´n Boydella &Barry Smyth 汇报人:童蕾 学号:10200134
文章框架 • 1 简介 • 2 背景 • 2.1 个性化检索 • 2.2 协作信息检索 • 2.3 网页综述 • 2.4 检索界面 • 3 社会综述在协作网络检索中的应用 • 3.1 基于片段的文件代理 • 3.2 生成社会摘要 • 3.3 社会总结举例 • 4 在网络检索中使用社会综述 • 4.1 基于查询的社会综述 • 4.2 综合摘要 • 5 评价 • 6 讨论 • 7 总结
摘要 • 网络搜索引擎面临的一个严重挑战是怎样将相关结果呈现给搜索者。传统的方法是以标题和摘要(片段)信息制作一个排列单,这些片段通常是基于当前查询选择出来的。这些片段帮助检索者高效的利用信息检索结果,同时确定与个人检索可能相关的信息。 • 最近,研究者开始探索片段也许同样可以应用到以检索者的偏好作为路径更好地突出相关信息给检索者。本文主要侧重于片段在协作网络检索中扮演的角色,描述一种总结检索结果的技术,该技术用于控制更多地关注有同样检索目的的群体的协同检索行为并且更加关注检索者的表现。从而进一步揭示这个所谓的社会总结技术是怎样形成更好地适应搜索偏好并描述了一种新型的把结果和社会综述相结合的个性化搜索界面。
一、简介 • 从网络搜索立场上看,特定结果列表的成功取决于很多因素,主要包括: • 检索结果页面不遗漏相应的内容 • 不包括过多不相干的内容 • 根据用户查询的相关性排列结果 • 总之,搜索结果应该以突出其相关性的方式呈现,而不仅仅根据查询,同时还要考虑用户个性化搜索。按照惯例,现在的搜索引擎以一个页面标题的组合、网页网址和结果片段来显示检索结果。在这篇文章中,我们重点讨论结果片段,即那些网页内容简短的摘要,以及这些摘要产生的方式。
本文观点 • 本文描述了如何产生基于一群有相同需求的检索者的偏好而选择的以查询为重点的片段。通过挖掘一群检索者协作检索时产生的选择性信息来达到这一目的。举个例子,比如一群经典车的爱好者可能会收到与共同偏好更相关的片段。比如所有经典35611912保时捷零件待售、OEM保时捷发动机部件、OEM保时捷刹车、空气过滤器、燃油过滤器、发动机部件。本文扩展基本的社会综述,因此它可以用来产生以查询为重点、以团体为基础的摘要,将其作为协作网络检索搜索引擎的一部分。
2、背景 • 2.1 个性化检索 • 许多检索之所以失败是因为检索词缺乏关键信息。例如,许多检索词无法包含有效描述检索背景或检索偏好 。 • 查询语句相关背景的信息是一种补充模糊查询术语的方法。近来研究人员关注检索时如何开发背景,不论是通过直接建立前期背景,还是间接推断。例如,Inquirus 2 元搜索引擎用背景目录来补充基于关键词的查询,用户直接从一系列目录中选择,如“研究论文”和“主页”。而系统Watson 利用用户的活动先于检索判断背景,waston 监控一个用户的文字处理活动并且使用文件文本作为查询术语的基础。 • 另一种方法包括收集和使用关于检索者个人偏好的信息,他们随着时间的发展来提供一个易于处理检索者长期与短期兴趣的更为集中的结果。用户查询历史和浏览历史作为信息来源都被建议使用。像Google和Yahoo 这样的主要商业网络搜索引擎现在都提供基于用户简介的个性化检索,这是他们从用户的检索历史中了解到的。
所有这些技术都关注获取并且再利用个体检索者的检索背景,不论是暂时的还是长远的。本文中与社会综述成果最接近的即网络协作检索,它代替文件、利用一群相似检索者的检索经历,产生基于团体爱好的推荐。这种方法为基于个人的个性化提供了许多好处,比如隐私权的重视(敏感的检索历史是不为个体检索者保留的)以及在相似检索中检索专长的共享。而最后一点是产生表达一群有相同爱好的检索者的结果页面的方法之关键。这一点将在后面的部分更加详细地讨论协作网络检索。
2.2 协作信息检索 • 在有协作检索趋势的个性化检索和主要关注的检索者之间的协作的检索之间做一个连接是有必要的。因为信息在群体之间是可以被共享的。 • 一个只有200多名受访者的调查中,超过90%的受访者表示,他们经常在检索的过程中参与到协作检索中。87%的受访者表现出“后座搜索”行为,他们通过检索者的建议来查询。更有30%的受访者通过使用即时信息并参与到合作检索的实践中。此外,86%的受访者通过邮件分享了他们的检索结果。50%的受访者会直接打电话给同事分享网络检索结果,而另外一些人编写摘要文件和/或网页以便和其他人分享。 • 因此,尽管主流搜索引擎缺少明确的协作功能,仍然有明确的证据表明,用户在检索的过程中以各种不同的方式参与到合作中。
2.3 网页综述 • 随着万维网的来临,对文档综述(摘要)的需求日益成为主流,并带来了新的挑战即自动综述。 • 因此,网络内容引入了额外的功能,可协助和指导总结过程。例如,网页包括超出了他们的核心内容的信息功能,如结构信息隐含在HTML标记中。此外,网页不孤立存在,因为网络的超链接结构意味着每份文件可以找到对内和对外的联系网络,这种连接信息也可以用于指导综述。 • 本文主要是依靠搜索历史的总结指导网页综述,与本文特别相关的是利用搜索引擎的点击数据以指导网页综述的工作。
2.4 搜索界面 • Coyle and Smyth在协作网络检索的结果中加入了以群体为基础的解释。在结果中注明一个社区的搜索历史,最近和相关的查询信息。当检索者的鼠标点过该图标时,它能显示更加详细地信息。 • Joho and Jose在交互式信息检索界面中将结果分组,展示了标准的结果列表,为检索者提供了对结果不同的角度的返回搜索。 • 本文利用社会综述技术描述的网络协作检索系统界面允许检索者通过不同的途径浏览他们的检索结果,如从底层网络搜索引擎返回,结果列表中的推广与群体偏好一致,等等。
3.社会综述在协作网络检索中的应用 • 以群体为基础的社会综述工作的出发点是网络搜索的方法,即协作网络检索(CWS)。CWS利用查询的重复和相同爱好检索者的选择规律,从基本搜索引擎产生的结果中推荐,这些结果可能对特殊的团体尤其相关。值得注意的是: • CWS假定一个群体检索者的可用性 • 每个团体都与所提交的由查询组成的检索知识仓库、所选中的结果和 这些选择的结果中的片段所包含的词条都有联系 • 搜索知识用于创建该群体选择的结果与查询和片段的词目有关的以群体为重点的搜索索引 • 在搜索的时候,一些潜在的搜索引擎提供的有机搜索结果由群体推荐,这是基于当前目标的索引查询的社会选择的结果 • 推荐的结果和群体成员选择的频率和片段术语的信息化有关
来自社区C的用户U提交他们的查询q1,是由两个平行的一个是潜在的网络搜索引擎(如谷歌)和CWS相关引擎发出。相关引擎返过来用q1探求以群体为基础的搜索索引Ic,得出以群体为基础的检索结果RC成立。再与从网络检索引擎返回来的原始检索结果Ro的相关引擎想结合,通常Rc排在Ro前面,最后产生回到检索者手中的最终检索单Rt。来自社区C的用户U提交他们的查询q1,是由两个平行的一个是潜在的网络搜索引擎(如谷歌)和CWS相关引擎发出。相关引擎返过来用q1探求以群体为基础的搜索索引Ic,得出以群体为基础的检索结果RC成立。再与从网络检索引擎返回来的原始检索结果Ro的相关引擎想结合,通常Rc排在Ro前面,最后产生回到检索者手中的最终检索单Rt。 图2显示了CWS的构架
3.1 基于片段的文件代理 • 前述方法中协作网络检索中最关键的一点是被当地搜索索引Ic代表的这样一种观念。用符 号(c,u,p)表示检索,即群体c的用户u查询q1.认为r是这个检索中被选择的结果,这一结果显示片段s(r,q1)必须包含术语t1….tn。作者认为r可以使用s(r,q1)中的术语索引。更普遍的,从一系列不同的查询中选择了一个结果r,在一系列不同的片段s(r,q1)…s(r,qn)中被索引。因此,对于一个特定群体的每个选定的搜索结果都会被代表,为方便进行本地索引。即公式: • SC(r)=Us(r,q1)
图3显示了反应到(C,u,q1)一个例子的结果名单。结果R1和R3被选择和他们的代理者也被更新。图3显示了反应到(C,u,q1)一个例子的结果名单。结果R1和R3被选择和他们的代理者也被更新。 在这种情况下,R1已永远只能被选定为q1,所以它的代理者是由单一片段的s(r1,q1)组成的Sc(r1)。相比之下,R3为另一个查询qj被先选了,所以它的代理者Sc(r3)是由S(r3,qi)和s(r3,qj)的组合组成的。所有这些结果都在当地群体索引的术语中包含代理人的术语所标引。结果R2从来没有被该群体选择,所以它不会出现在本地索引。
3.2 生成社会摘要 • 在CWS群体搜索知识中,我们有n个查询重点的片段的S(p,q1…qn),对应于每个查询q1…qn,因为其中p是过去的选择。为了产生一个社会摘要SS(p),对于一个页面p,片段首先解析成片段,然后得依据发生频率评分,最后重新组合。总的来说生成社会摘要主要有以下几步: • 碎片整合——消除冗余 • 碎片评分——评价其对用户的有用性 • 碎片排序和汇总——依据评分结果重新排列
社会总结产生结果页面: • (a)页面p是以前选定的作为群体检索成员查询q1,q2.q3的结果 • (b)当结果被选定时S(p,q1),S(p,q2)和S(p,q3)从搜索引擎中返回 • (c)片段解析成标准化并生成社会摘要的碎片,SS(p)。
4、在网络检索中使用社会综述 • 前面描述的页面总结技术,需要相同爱好群体检索者的互动。这种技术非常适合生产全页的摘要,但它还不适合产生结果片段,因为它的摘要片段不以查询为重点的。 • 在本节中,主要涉及两部分的内容: • 1、解释这种技术怎样可以扩大产生以查询为重点并可以用来作为结果的片段,并在下一节我们继续评估这些片段如何更好的表现出与替代方法的相关。2、描述另一种社会综述的应用和产生的所谓复合摘要并以此形成一个结果集。
4.1基于查询的社会综述 • 根据上述程序形成的结果页面摘要将导致摘要和群体爱好一致,和先前的群体检索历史反映的一样。但是,这些网页摘要还不适合用来取代传统结果片段。在一个搜索界面中,结果片段需要被重点询问。 • 基于查询的摘要可以以普通的方式产生,通过得分的高低降序排列。反过来,任意长度的摘要(高于现有碎片总数)可通过截断顶部片段产生。这种方法可用于将群体和查询为重点的片段相联系,通过用搜索引擎结果查询取代传统的基于查询的片段。
4.2 综合摘要 • 传统的搜索引擎界面中以列表的形式显示结果,每个结果页中至少用标题、网址和查询为重点的片段表示,并通过结果相关性排序。这种基本格式,除了一些轻微的变异,是被大多数搜索引擎使用的。但是,许多任务迫使检索者审查更多结果,而不是一个简单的结果页面。考虑到这一点,我们提出的社会总结技术可用于制作这样一个的总结——一个复合的社会摘要,这与群体的喜好和信息需求是一致的。即通过从片断集中分解出独立的文档碎片,在推荐的结果页面中产生复合社会摘要。
5、评价 • 5.1 实验数据 • 我们通过8个不同爱好的群体为将近4500个网页制作了基于群体的社会摘要,展示了这些摘要是怎样更精确地描述特殊群体的需求。
5.2 评价指标 • 首先,打开文本综述采用传统的统计词频方法从高分句子产生文件摘要。 • 其次,对于每个结果页面,我们使用我们定的技术比较所产生的社会摘要,通过OTC和MEAD公司生产的摘要(这是一个调整为类似长度的社会摘要)在测试中返回ROUGE-1评价指标。(ROUGE是评估总结的标准包,并已成为一个领先的综述研究的国际论坛——文档会议选择使用的评价方法。)ROUGE-1指标比较候选和相关摘要重复出现次数。
5.3 评价结果 • 分别对8个群体进行了十大测试查询,图中显示ROUGE对SS,OTS和MEAD摘要与相关摘要(测试查询项目)不兼容的评价结果。对于每一个群体,我们看到的SS技术都优于OTS和MEAD。例如,在滑雪社区,我们看到的SS摘要实现了将近50%检全率,而OTS和MEAD的检全率在36%和近于40%之间。因此,我们基于群体的技术能够产生与群体测试术语更一致的片段摘要,因而应该提供更相关的摘要给群体成员。
5.4 评价限制 • 这些评价结果支持这一概念,即我们的社会综述技术能够为有共同爱好的搜索群体形成基于群体的结果摘要。但同大多数评价一样,该评价也是受限制的。这一评价最重要的限制是缺乏明确的人为产生的摘要判决。这样做的一个好处是,它可以评估生产超过5000页的摘要,但缺点是通过评价所产生的社会摘要的有效性仍然存在问题。
6.讨论 • 本文的主要贡献是,探索以群体为重点的搜索结果摘要的形成,以帮助群体感知作为一个协作网络搜索引擎的一部分。我们主要集中在介绍和评估的核心总结技术,和在比较了传统的总结基准数取得积极成果。在本节中我们将讨论最近的一些额外的工作,探索作为一个新的搜索界面的一部分的社会摘要的作用。但首先要考虑的是,在网络搜索方面合作的一般性问题,隐性和显性模式的具体区别。本文的工作是基于一个隐性的方式在网上搜索的合作,而不是更受欢迎的显性办法。
6.1 显性与隐性的协作 • 显性协作信息检索是指在特定的工作环境或开放的网络社区中,显性地涉及和其他人直接或间接交互的与解决特定问题相关的信息查寻行为,处理的是用户如何在一起搜索信息的问题。它强调为满足群组成员共同的信息需求,实时地协调用户之间的检索行为所涉及的一系列技术。 • 隐性的协作信息检索以查询为中心,通过重用以前用户的查询及检索结果来提高用户协作检索的效率。人是一切协作活动之源,而隐性协作检索忽略了人的主动参与是协作检索系统成功的关键这样一个事实。
6.2 一种新型的以组织为基础的网络检索界面 • 从推荐系统的角度来看,本文触及了一些最近网络检索的革新。讨论了协作网络检索,一个基于群体的网络检索方法,它与群体检索者尤其相关的结果是通用搜索引擎推荐的有机结果。而社会综述技术,是利用CWS启用的,以及它如何能够被用来生产不同类型的社区为重点的摘要,包括以基于群体的结果片段和复合的结果摘要。这些以群体为基础的结果摘要,将有助于更好地理解某一特定搜索结果。为了把这些不同片段的组合在一起,我们设计了一种新的界面推荐搜索结果,即利用社会综述的协作网络检索界面。如下图:
该图主要有三个基本部分: • 该清单网页结果显示(有机)的结果没有任何群体为基础的排序或从CWS推荐的结果,从基础网络搜索引擎(谷歌在当前的例子)返回,这反映了标准的谷歌的结果名单。 • 推荐的结果是由CWS索引的片段返回的结果。这些都是群体的建议,因此正与群体喜好和利益更加一致。对于每一个推荐的结果,取代标准结果片段的是对这一结果页基于查询的社会总结。这样,每个导向的结果都从群体摘要及其相关内容中受益。 最后,推荐是一个综合的总结了全社会推荐的结果摘要。它的目的是提供一个推荐群体偏好的结果和当前查询利益设置的简要概述。
7、总结 • 本文主要描述了一种为满足志同道合者需要的个性化的网络检索方法。基本的协作网络检索技术重点推荐检索结果,其主要是来自传统检索引擎,被推荐为候选主要是因为它们以前曾被认为与团体搜索者相关。本文的主要重点是描述结果片段如何适应于团体的偏好。为此,我们描述了一个新的文档文摘技术,即以群体为重点的社区搜索行为的社会综述。如通过协作网络搜索引擎的记录,作为产生社区为重点的结果摘要的基础。这是通过利用标准的搜索引擎的片段功能生成,使结果网页片段,与志同道合搜索者的喜好和兴趣一致。本文已经提出了一个评价使用一些搜索团体证明这项技术可以生成摘要,而这摘要比那些产生使用标准单一化的标准更多地关注团体。我们还提出了一种新的协作网络检索界面,在个人利用结果页面和作为一个总结总体列表方式中同时利用我们社会综述的方法。
优点:全文结构清晰 • 进行实例举证 • 缺点:相关概念没有明确 • 对具体如何操作并没有讲的很清楚
参考文献: • [1]徐树维,范伟.用户协作检索研究述评[J].情报科学,2010(7) • [2]秦国新,杨晓江.基于数据分配表的分布式协作检索系统[J].情报杂志,2006(12) • [3]赵仲孟,戚晓光,沈钧毅.分布式搜索引擎系统中协作检索机制的研究[J].微电子学与计算机,2005(5) • [4]伊雯雯,孙涌,尹春晖.集群环境下个性化检索系统的研究与实现[J]苏州大学学报,2005(7)