950 likes | 1.15k Views
第三章 网络信息资源检索. 信息检索教研室. 网络信息资源. 定义: 通过计算机网络可以利用的各种信息资源的总和。 特点: 数字化存储,内容丰富、表现形式多样化,增长迅速,信息源复杂,信息不一等。 组织: 无统一组织,散秩,聚合。 利用: 网址直接浏览、通过网络资源指南查找。. 第一节 搜索引擎. 概念 发展简史 类型 结构和原理 评价. 什么叫搜索引擎??. Internet 上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的 网页结果列表 ,并且排序 输出。. 一、搜索引擎的发展简史
E N D
第三章 网络信息资源检索 信息检索教研室
网络信息资源 • 定义:通过计算机网络可以利用的各种信息资源的总和。 • 特点:数字化存储,内容丰富、表现形式多样化,增长迅速,信息源复杂,信息不一等。 • 组织:无统一组织,散秩,聚合。 • 利用:网址直接浏览、通过网络资源指南查找。
第一节 搜索引擎 • 概念 • 发展简史 • 类型 • 结构和原理 • 评价
什么叫搜索引擎?? Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序 输出。
一、搜索引擎的发展简史 • 1990年,加拿大麦吉尔大学的Alan Emtage等开发出Archie,用以搜索FTP上的文件名,这是所有搜索引擎的鼻祖; • 1991年由明尼苏达大学的Paul Lindner和Mark McCahill发明了基于菜单式的组织和搜索网络信息的Gopher; • 1993年,内华达州高教系统能检索文件和网页的搜索工具; • 1993年,Excite(2002年被InfoSpace收购),对字词关系进行分析; • 1994年,Lycos,除了相关性排序外,Lycos还提供了前缀匹配等功能,Lycos第一个在搜索结果中使用了网页自动摘要; • 1994年,Infoseek,以友善的界面和附加服务著称。95年和netscape达成合作,在netscape浏览器中嵌入其搜索; • 1994年,Yahoo诞生; • 1998年,Google; • 2000年,百度……
二、搜索引擎的类型 (1)按搜索内容分类 综合性搜索引擎和专业性搜索引擎; (2)按搜索方式分类 目录式搜索引擎、全文式搜索引擎、智能式搜索引擎、元搜索引擎。 • 元搜索引擎:是通过调用、控制和优化其他多个搜索引擎的搜索结果并以统一的格式在同一界面集中显示。
三、搜索引擎的结构和原理 • 搜索器 • 索引器 • 索引数据库 • 检索器 • 用户接口 (一)搜索引擎的系统结构
三、搜索引擎的结构和原理 • 定期运行搜索器(或人工),收集信息。 • 利用索引器进行自动标引,建立索引数据库。 • 检索器向用户提供检索界面,由用户输入检索式,匹配。 • 经过特定算法,命中网页按相关度排序输出。 (二)搜索引擎的基本原理 网络信息的 采集和存储 索引数据库 的建立 检索界面 的建立 检索匹配 相关性处理
四、搜索引擎的评价 • 评价指标: • 网页覆盖率; • 返回结果的准确性; • 重复信息的过滤; • 网页更新速度; • 响应时间; • 系统稳定性。
检索工具的选择: 可借助评价网络检索工具的专门网站,了解特点、掌握技巧及最新进展。如: • 搜索研究院 (http://www.9238.net) • 中文搜索引擎指南 (http://www.sowang.com/)
第二节 综合性搜索引擎 一、百度(Nasdaq简称:BIDU) 是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。 • “百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。 • 口号: 百度一下,你就知道。
百度拥有全球最大的中文网页库,收录中文网页已超过200亿,这些网页的数量每天正以千万级的速度在增长。 • 百度每天处理来自超过138个国家超过数亿次的搜索请求,每天有超过7万用户将百度设为首页,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。2004年起,“有问题,百度一下”在中国开始风行,百度成为搜索的代名词。
2009年3月5日,中国互联网络信息中心发布了《2008年中国搜索引擎市场广告主研究报告》和《2008年中国搜索引擎用户行为研究报告》,其结果显示,百度的用户首选份额已从2006年的62.1%升至76.9%;百度的首选忠诚度达到96.0%。2009年3月5日,中国互联网络信息中心发布了《2008年中国搜索引擎市场广告主研究报告》和《2008年中国搜索引擎用户行为研究报告》,其结果显示,百度的用户首选份额已从2006年的62.1%升至76.9%;百度的首选忠诚度达到96.0%。 • 最新的统计数据显示:中文搜索引擎为网站带来流量的比例,百度为74.88%,Google为13.54%,而雅虎仅为3.94%。
(二)检索技术 1、逻辑“与”检索:输入多个检索词以空格分隔或“+”链接。最多可输入10个检索词。 2、逻辑“或”检索:用“│”连接多个检索词。 3、逻辑“非”检索:检索词前加上“-”(减号前必须留一空格),搜索不包含该检索词的网页。如:气功 -通气功能 4、精确检索:用双引号“”或者书名号《》,进行精确短语匹配。
(二)检索技术 5、title:可限定检索词出现在网页的标题中。如title:抑郁症 心理治疗 6、文件类型限定:输入filetype:文件名缩写。如:抑郁症 心理治疗 filetype:ppt 7、site:将搜索范围限定在特定站点中,检索表达式:“site:站点域名 8、inurl:将搜索范围限定在URL链接中,检索表达式:“inurl:关键词”
三.检索途径 1、简单检索 直接输入检索词或检索式。 搜索结果包括: • 有关事物的词条注释—百度百科等; 如:三聚氰胺、伦敦奥运会、菜谱…… • 含有检索词各方面信息的网页。
百度搜索结果 词条注释 相关信息报道
2、高级检索 • 搜索结果区内的4种匹配方式依此表示and 、精确检索、or、not。 • 查询设置:可限定语言、文件格式、时间、字词位置、网域等。 • 搜索特定网页:链接网页
练习--高级搜索 • 例1:保鲜膜为什么保鲜? 检索表达式: 保鲜膜为什么保鲜 或 保鲜膜 原理 • 例2:自学竞争情报,查找课件? 检索表达式:竞争情报 filetype:ppt • 例3:校园网内有关“计算机等级考试”的通知 检索表达式:site:(jnmc.edu.cn) 计算机等级考试
百度 更多 http://image.baidu.com/ 世界上最大的中文图片搜索引擎
百度 更多 http://mp3.baidu.com/ 支持MP3/ rm/ wma格式
百度 更多 http://zhidao.baidu.com/
百度 更多 http://map.baidu.com/ 方便的出行指南,快速获取周边信息
二、Google(http://www.google.com.hk) • 是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月组建的。 • 凭借其精确的查准率、极快的响应速度,广受用户好评。同时又因为其坚持不走商业化道路,保持开放的企业文化而深受用户的拥护。实际上Google所代表的已不仅仅是某项先进的技术,而是一种新兴的文化。
作为目前互联网上功能最强大的搜索引擎, Google的索引目录中已经储存有上百亿个网页。用户可以使用100多种语言文字进行搜索。现在,Google平均每天接受的搜索次数达3亿多次,几乎占全球所有搜索量的1/3。
Google搜索 分为: • 简单搜索 不区分大小写,返回结果包含全部及部分关键词。 • 高级检索 • 跨语言搜索 • 特色搜索 学术搜索、图书搜索、论坛搜索等
习 题 1.用高级检索途径查找“Ⅱ型糖尿病国外病人眼部并发症研究”的相关网页。 ("type 2 diabetes" OR "non-insulin dependent diabetes" OR NIDD) eye complications -china -chinese 2.利用跨语言检索有关日本海啸的信息。
Google论坛检索(http://groups.google.com/) 包括usenet新闻组 例:查找医学信息或情报学专业论坛 检索表达式: 情报 或 informatics
第三节 医学专业搜索引擎 一、Medical Matrix(http://www.medmatrix.org) 1994年由美国医学信息学会(AMIA)主办并维护的世界著名医学专业搜索引擎。以搜集因特网上临床医学信息为主,收录6000多个医学网站、1500多万个链接。所收录的网站全部经过AMIA资深专家的认真筛选和审定,以确保质量。
二、HON (http://www.hon.ch) 由在瑞士日内瓦的非盈利性组织“网络健康基金会”(The Health on the Net Foundation)1996年建立的一个医学信息站点,该站点专门诊断因特网所提供的信息的正确性和可靠性,并提倡网络伦理。这个组织发展了一套用以检测网站信息的正确性和可靠性的系统,运用此系统,上网者可随时确知自己浏览的资料的可信度。
HON根据使用信息对象的不同,提供三种不同对象的登陆入口,包括个人、医学专业人员和网络出版者,针对不同的用户群体提供一些他们感兴趣的信息。 • HON 医学搜索引擎 包括:HONcode site、MedHunt、HONselect和HONmedia。
MedHunt 是HON搜索引擎的主要服务,通过MedHunt搜索HON覆盖的所有医学站点。使用比较简单,只要在检索输入框中输入欲检索主题的关键词,点击“Submit”按钮即可。显示的结果按照相关度排序。
HONselect 是将来源于不同数据库同类信息资源进行整和后,再提供给用户。这是HON提供的特色服务。 从HONselect作为入口检索,要求输入的检索词应是医学主题词(MeSH)。
科学搜索引擎—Scirus www.scirus.com • 由荷兰爱思唯尔Elsevier Science于2001年4月1日推出。Scirus是专为搜索高度相关的科学信息而设计的搜索引擎。 • Scirus的技术支持是Fast Search & Transfer 。对用户提供了超过2亿个科技网页的检索,涵盖了18,000,000篇全文文献及文摘,收录范围广泛,文献种类齐全。它为用户提供了强大的检索功能,具体表现在:查找网页上最大的科技及医学(STM)数据库,能够发现更多的科技信息。能发现其他搜索引擎未收录的最新的报告、专利、同行评议文章、作者主页、大学网址和期刊。
资源链接: • 14.6 million MEDLINE citations • 5.5 million ScienceDirect full-text articles • 2 million patents from the USPTO(美专利局) • 261,000 e-prints on ArXiv.org(物理等预印本) • 5,352 BioMed Central full-text articles • 10,600 NASA(美航空航天局)technical reports • 14,878 full text articles from Project Euclid (欧几里得数学统计电子期刊) 还有巨量教育、学术团体、政府、企业等站点。(注:数据动态变化)
检索规则: • 支持:AND 、 OR 、 ANDNOT • 关键词前可用 + 、- • 截词符* • 可用字段限定符来缩小范围,如:au、ti、jo、ke、url、dom、af等。
用户可以通过简单检索(basic search)和高级检索(advanced search)两种方式来进行检索专业信息资源。 • 它还使用一个特殊的叙词表来收录相关的科学词汇。在与慕尼黑大学(University of Munich)的计算语言学系(Computational Linguistics Department)的合作基础上,Scirus划分了20个主题领域,确定了超过50,000个叙词,涵盖所有专业科学领域的科学叙词表,以保证检索效率。