810 likes | 1.02k Views
Internet 网络信息检索. 网络信息检索工具 —— 搜索引擎 网络资源导航 、学科门户 网上书目 专利文献检索 物理网络资源 及检索. 网络信息检索工具 搜索引擎简介. 搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。 搜索引擎的检索系统由以下几部分组成: 搜索器、分析器、索引器、检索器和用户接口。 同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。
E N D
Internet网络信息检索 • 网络信息检索工具——搜索引擎 • 网络资源导航、学科门户 • 网上书目 • 专利文献检索 • 物理网络资源及检索
网络信息检索工具搜索引擎简介 • 搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。 • 搜索引擎的检索系统由以下几部分组成: 搜索器、分析器、索引器、检索器和用户接口。 • 同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。 • 搜索引擎采用的检索词和信息标识词匹配运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。
搜索引擎分类 • 检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。 • 目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球。 • 混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。 • 多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索 的检索工具。
搜索网站精选 • Google:www.google.com • 百度:www.baidu.com • 中文雅虎:http://cn.yahoo.com/ • 新浪搜索:http://search.sina.com.cn/ • 网易搜索:http://search.163.com/ • 3721中文网址搜索:http://www.3721.com/ • 北大天网搜索:http://e.pku.edu.cn/
搜索引擎使用-提炼关键词 • 搜索关键词提炼要在搜索引擎上搜索信息首先必须输入关键词,所以说关键词是搜索的开始。大部分情况下找不到所需的信息是因为在关键词选择方向上发生了偏移,学会从复杂搜索意图中提炼出最具代表性和指示性的关键词对提高搜索效率至关重要,这方面的技巧(或者说经验)是所有其他搜索技巧的基础。 原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。
搜索引擎使用-细化搜索条件 • 给出的搜索条件越具体,搜索引擎返回的结果也会越精确。 比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。 • 由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而中文则没有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜索。比如查中文电脑冒险游戏的资料,输入"电脑游戏 冒险",而不是"电脑冒险游戏"。
搜索引擎使用-用好搜索逻辑命令 • 用好搜索逻辑命令有些搜索引擎支持附加逻辑命令查询,常用的是布尔(Boolean)逻辑命令与(AND)、或(OR)和非(NOT)。用好这些命令符号可以大幅提高我们的搜索精度。 • 如:前述computer adventure game 即computer(AND)adventure(AND)games • 也可用policy(OR)goverment
搜索引擎使用-用好精确搜索 • 除利用前面提到的逻辑命令来缩小查询范围外,还可使用“”引号(注意为英文字符。 • 如:“computer adventure games”与 computer adventure games 的区别是: 虽然后者限定网页中要同时包含三个关键字,但其顺序和相邻位置允许是任意的。而前者不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求完全相同,并且它们必须还是挨在一起的,所以带“”号的查询范围更小。
搜索引擎使用-附加功能搜索 • 附加功能搜索:-网页快照: (Snap shot)直接从引擎数据库缓存(Cache)中调出该网页的存档文件,方便用户在预览网页内容后决定是否访问该网站,或是在对应网页发生变动时查看原始页面,或解决死链接。 -横向相关查询:当用户找到某个感兴趣的网页,搜索引擎提供查询内容近似的其他网页的功能(不限于同一网站)。一般是在信息条目后面给出“Similar Pages”或“More results like this”链接。-除上述功能外,现在搜索引擎都纷纷开始提供分类搜索,如新闻搜索、图象搜索、新闻组搜索、Flash搜索等等。
搜索引擎使用-搜索引擎的选择 • 搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。搜索仅集中于某一家搜索引擎是不明智的,再好的搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。日常信息需求大致可分为两种,一种是寻找参考资料,另一种是查询产品或服务。搜索引擎还分为全文搜索引擎(Full-Text Search Engine)和目录索引(Search Directory)。 • 若要查找参考资料,可能的话,全文搜索引擎便自然成了我们的选择。 • 如果找的是某种产品或服务,那么目录索引就略占优势。
国外综合型检索工具 • 目前有记录可查的国外的搜索引擎数量已达到2500个,其中有不少优秀的综合型搜索引擎,如: Google、 Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、OpenText等。 • 访问AltaVista(http://www.altavista.com) 的次数超过1亿次。 • HotBot( http://www.hotbot.com )是美国享有盛誉的综合型、混合型搜索引擎。
著名综合型检索工具Google(http://www.google.com) • Google是目前世界上最大的搜索引擎,它提供70多种界面语言和35种检索语言,有分类查询和关键词检索两种检索功能。 • Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索,且逻辑“与”不用算符,词与词之间留一空格,逻辑“或(OR)”和“非(-)”算符前必须留一空格。 • 简单检索可直接使用字段限定检索。
Google的字段限定检索 site:限定在某个特定的域或站点中进行检索。 命令格式: 检索词 site:域名 示例:要搜索北京大学山鹰社的信息。检索式:山鹰社site:pku.edu.cn inurl:表示限定搜索结果网页的URL必须包含所规定的字符串。 命令格式: inurl:限定的字符串检索词 示例:搜索电子商务软件环境的专题资料。许多中文网站都以“dzsw”作为 电子商务专题目录或频道名称。检索式: inurl:dzsw软件环境 filetype:用来限定命中文件的类型。 命令格式:filetype:文件类型检索词试析检索式: filetype:ppt信息检索
利用Google进行专题信息检索 1 简单专题信息检索及目录检索 接受一项简单专题,最直截了当就是在搜索框内输入一个关键词,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。 如果对查询的领域熟悉,只想寻找某些专题网站,首先考虑用目录检索。目录分类明确,则网站专题信息集中,剔除了大量不相关的信息。不过对查找中文信息,Google的中文目录太少只有非常普通简单的类目,可能很难满足需求(中文目录“http://directory.Google.com/Top/World/Chinese_Simplified/”) 。
2、复杂专题信息检索 • 2.1 分析课题,选择正确的关键词 正确选择关键词、运用Google检索语法规 • 2.2 Google基本检索语法规则 布尔逻辑检索: 短语或者句子检索: 通配检索:加权检索 例如,检索“internet 上www 的历史”,为 :+www +的历史 internet。 又如,“www的历史”中,“的”其实是忽略词,但因为被用英文双引号引起来,搜索引擎就强制搜索这一特定短语。
在中文(简体)网页上,查找有关“搜索引擎的历史”的信息。在中文(简体)网页上,查找有关“搜索引擎的历史”的信息。 • [检索式1]:搜索引擎 • [检索式2]:搜索引擎 历史 • [检索式3]:搜索引擎 历史 -文化 -中国历史 -世界历史 • [检索式4]:搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化 -中国历史
3、利用Google的高级检索——限定检索 • 3.1限定在网站或域名的检索 • “site”表示搜索结果局限于某个具体网站或者网站频道,如“www.sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。 • [例1]搜索上关于搜索引擎技巧的页面,检索式为:搜索引擎 技巧 site:edu.cn。
[例2] 在CCIDNET网站和中文教育科研网站(edu.cn)搜索一下关于搜索引擎技巧历史的页面, 检索式为:搜索引擎 历史 site:www.ccidnet.com OR site:edu.cn。 • [例3] 搜索新浪科技频道中关于搜索引擎技巧的信息,检索式为:搜索引擎 技巧 site:tech.sina.com.cn。 site后的冒号为英文字符,而且冒号后不能有空格, 否则,“site:”将被作为一个搜索的关键词。此外,网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。
3.2 限定在URL链接的检索 • 使用“inurl”操作结果关键词出现在链接中的目录名称或者网页名称或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,可以用inurl找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体信息。使用inurl通常能提供非常精确的专题信息。“allinurl”操作使用结果网页的链接中包含所有作用关键词,查询的关键词只集中于网页的链接目录名称或者网页名称,如“allinurl: google search”相当于“inurl:google inurl:search”。 • [例]查找机动车安全检测的网站,检索式为:inurl:机动车 安全 检测
3.3 限定在网页标题的检索 • Google提供“intitle”和“allintitle”搜索的关键词包含在网页标题中。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中,因此,限定关键词于网页标题,可找到非常相关的专题页面。 [例]查找机动车安全检测, 检索式:intitle:机动车 安全 检测。
3.4 限定在数据类型的检索 • “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能在某一类文件或某些二进制文档中查找信息进行检索。其中最实用的文档搜索是PDF搜索,PDF文档通常是一些图文并茂的综合性文档,提供的信息一般较全而专。 • 如搜索一些期刊影响因子方面的PDF文档,检索式为:影响因子 期刊 filetype:pdf。
3.5其他用法类似的限定检索 参阅英文Google大全。
著名综合型检索工具Yahoo(http://www.yahoo.com) • Yahoo是因特网上历史最悠久、用户数最多的综合型、混合型搜索引擎,是分类式搜索引擎的典范。它拥有10余种语言版本,且各版本的内容互不相同。 • 如果用户的检索词在Yahoo !中查询不到结果,它会自动将查询转交给Google搜索引擎做进一步的检索。 • Yahoo!支持词语检索和“+”和“–”限制检索等,它还提供日期限定、URL和题名限制检索等。“+”限定关键字串一定要出现在结果中; “–”限定关键字串一定不要出现在结果中。
Yahoo搜索(续) (http://cn.yahoo.com) • “雅虎中国”(http://cn.yahoo.com)提供了一份细蜜、层次丰富的中文网站分类目录。 • 雅虎允许用多个关键词检索,各个关键词之间必须留一个空格,系统默认逻辑“与”检索。雅虎支持词组短语检索和“+”和“–”限定符,提供两种字段限定功能:t:网站名称搜索和u:网址(URLs)搜索。
综合型中文搜索引擎 • 目前形成规模的综合型中文搜索引擎有:百度、搜狐、网易、新浪、天网、北极星、搜索客、悠游、中国搜索、263在线搜索引擎、21cn搜索引擎、TOM中文搜索、常春藤、焦点搜索引擎、看中国、中国搜索、中国导航等。
百 度 http://www.baidu.com/ 百度高效检索技巧
1使用空格 2使用引号 3使用书名号 4使用百度快照 5使用拼音 6百度相关搜索 7巧用"¦"扩大查找范围 8减除无关资料 9在网页标题中进行查找 10在URL中进行搜索 11在指定网站内查找 12使用高级搜索功能 百度高效检索技巧
13使用个性定制 14使用地区搜索 15把百度当计算器和度量衡转换工具 16用百度查询股票 17词典查询 18新闻订阅 19航班列车时刻查询 20 搜索援助中心 21多文档查询 22简体和繁体 23英文字母大小写 24 百度网站导航介绍 百度高效检索技巧
1 使用空格 • 两个以上的关键词 多个关键词之间必须留一个空格 • 关键词,就是您输入搜索框中的文字,也就是您命令百度寻找的东西。 • 您可以命令百度寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文…… • 关键词,可以是任何中文、英文、数字,或中文英文数字的混合体。
2 使用引号:词组、词邻接 • 3 使用书名号:书电影作品
4 使用百度快照 • 百度快照,解决链接问题。这是另一个受用户欢迎的特色功能,解决了用户上网访问经常遇到死链接的问题,而且通过百度快照寻找资料往往要比常规方法的速度快得多。 • 点击每条搜索结果后的"百度快照",可查看该网页的快照内容。 • 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。 • 百度快照不仅下载速度极快,而且您搜索用的词语均已用不同颜色在网页中标明。
5 使用拼音 • 如果在百度上只知道某个词的读音不知道如何写,或在英文输入状态下懒得进行切换,可直接输入拼音、拼音和中文混合关键词。 • 如:jiu zhai gou 或jiuzhaigou 则百度会自动提示,并作为关键词。 • 是从历年积累下来的关键词及习惯统计分析所得。
6 百度相关搜索 • 如果无法确定输入什么关键词才能找到满意的资料 • 先输入一个简单词语搜索,然后,百度搜索引擎会为您提供“其它用户搜索过的相关搜索词”作参考。在结果下方有一组相关关键词,点击任何一个相关搜索词,都能得到那个相关搜索词的搜索结果。 输入一个简单的词, • 奥运 相关搜索: 2008奥运北京奥运 2008北京奥运 2004奥运版奥运版 雅典奥运 绿色奥运奥运冠军奥运图片 >>更多相关搜索...
7 巧用" | "扩大查找范围 “或” • 使用"A | B"来搜索"或者包含关键词A,或者包含关键词B"的网页。 • 例如:您要查询"图片"或"写真"相关资料,无须分两次查询,只要输入 [图片 | 写真] 搜索即可。百度会提供跟"|"前后任何关键词相关的网站和资料。 又如: 奥运会相关网页约3,920,000篇, 奥运会 | 世界杯相关网页约6,600,000篇
8 减除无关资料 • 排除含有某些词语的资料有利于缩小查询范围。 • 百度支持"-"功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是"A-B"。 • 例如,要搜寻关于"武侠小说",但不含"古龙"的资料,可使用如下查询: • 克林顿找到相关网页约1,070,000篇 • 克林顿-布什找到相关网页约684,000篇 • 克林顿布什找到相关网页约402,000篇
9 在网页标题中进行查找 • 在一个或几个关键词前加"intitle:",可以限制只搜索网页标题中含有这些关键词的网页。增加准确性 • 例如, • [intitle:南瓜饼] 表示搜索标题中含有关键词"南瓜饼"的网页; • [intitle:百度互联网] 表示搜索标题中含有关键词"百度"和"互联网"的网页。 • intitle: 关键词关键词 • intitle: baidu google
10在URL中进行搜索 • 在"inurl: "后加url中的文字,可以限制只搜索url中含有这些文字的网页。增加准确性 • 例如, • [inurl:mp3] 表示搜索url中含有"mp3"的网页; • [inurl:网页] 表示搜索url中含有"网页"的网页; • [inurl:china news] 表示搜索url中含有"china"和"news"的网页。 • inurl:mp3
11在指定网站内查找 • 在一个网址前加"site:",可以限制只搜索某个具体网站、网站频道、或某域名内的网页。 例如, • [电话site:www.baidu.com] 表示在www.baidu.com网站内搜索和"电话"相关的资料; • [intel site:com.cn] 表示在域名以"com.cn"结尾的网站内搜索和"intel"相关的资料; • [门户site: cn] 表示在域名以"cn"结尾的网站内搜索和"门户"相关的资料; 注意:搜索关键词在前,site:及网址在后;关键词与site:之间须留一空格隔开;site后的冒号":"可以是半角":"也可以是全角":",百度搜索引擎会自动辨认。"site:"后不能有"http://"前缀或"/"后缀,网站频道只局限于"频道名.域名"方式,不能是"域名/频道名"方式。
13 使用个性定制 • 您可以在个性设置中,定制您喜欢的搜索结果样式:搜索结果10条、20条还是50条结果?喜欢在新窗口打开网页还是在同一窗口打开?是否在百度网页搜索结果中显示相关的新闻?……完成设置后,您再次进入百度进行搜索时,百度会按照您所设置偏好为您提供个性化百度搜索。 高级搜索——点击此处进入个性设置
14 使用地区搜索 • 帮助您将在某一个地域范围内进行搜索。您可以轻松通过选择搜索下面的省市名称,来进行该地信息的检索。 • 高级搜索——点击此处进入百度地区搜索
15把百度当计算器和度量衡转换工具 • 百度计算器为用户提供常用的数学计算功能。您可在任何地方的网页搜索栏内,输入需要计算的数学表达式(例如:3+2),点击搜索,即可获得结果。百度计算器支持实数范围内的计算,支持的运算包括:加法(+或+),减法(-或-),乘法(*或×),除法(/),幂运算(^),阶乘(!或!)。支持的函数包括:正弦,余弦,正切,对数,弧度转化为角度。支持上述运算的混合运算。
百度支持常用的度量衡换算。方法是在搜索栏或者计算框内输入如下格式表达式:换算数量换算前单位=?换算后单位百度支持常用的度量衡换算。方法是在搜索栏或者计算框内输入如下格式表达式:换算数量换算前单位=?换算后单位 5公斤=?克百度搜索计算器使用帮助
16 用百度查询股票 • 您可以在百度搜索框内,直接输入股票代码“600600”,即可得到该支股票的价格和成交股数信息。 • 如: 您也可以输入“STOCK: 股票代码 (或股票简称、股票拼音简写)”,便可以得到该支股票的价格和成交股数信息 STOCK:股票代码(简称、拼音简写) STOCK: 600100 STOCK: 清华同方
17 词典查询 • 百度在线词典不仅支持强大的英汉、汉英单词互译功能,更提供常见中文成语的智能翻译。常用释义、语法、句法一览无余! • 只需在百度搜索框中输入您查询的词语,百度词典就会自动辨别您的需求并在搜索结果页面的搜索框的上面出现词典的链接,你只需点击即可得到该词语的翻译结果。 • 例如:查询单词“face”, • 查询成语“守株待兔”,