240 likes | 550 Views
3.1 搜索引擎 [P41]. 搜索引擎分类 分类目录型 分类目录 虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。完全可以不用进行关键词( Keywords )查询,仅靠分类目录也可找到需要的信息。如 Yahoo 雅虎、 新浪 。其他著名的还有 Open Directory Project ( DMOZ )、 Look Smart 、 About 等。现在许多搜索引擎在提供搜索服务的时候也同时提供这一类服务。 搜索(网页)型:最常见的。. “ 机器人”工作机理 起始 URL---- 分析页面 ----URL---- 新页面.
E N D
3.1 搜索引擎[P41] • 搜索引擎分类 • 分类目录型分类目录虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。如Yahoo雅虎、新浪。其他著名的还有Open Directory Project(DMOZ)、Look Smart、About等。现在许多搜索引擎在提供搜索服务的时候也同时提供这一类服务。 • 搜索(网页)型:最常见的。
“机器人”工作机理 起始URL----分析页面----URL----新页面
更多…… • 中文搜索引擎指南网[搜网]:http://www.sowang.com/ • 搜索引擎观察[专业、元、多媒体、购物]http://searchenginewatch.com/ • 著名搜索引擎简介:http://www.se-express.com/about-se.htm
搜索引擎:水平门户_综合搜索引擎[中文] 中文常用搜索引擎 • 百度中文搜索引擎:http://www.baidu.com/ • Google中文搜索引擎:http://www.google.cn/ • 搜狐搜狗搜索:http://www.sogou.com/ • 雅虎:http://cn.yahoo.com/ • 新浪:http://cha.iask.com/ • 网易 :http://so.163.com/ • TOM搜索: http://i.tom.com/ • 北大天网搜索引擎:http://www.tianwang.com/ • 奇虎 http://www.qihoo.com/
搜索引擎:水平门户_综合搜索引擎[英文] 国外英文常用搜索引擎 • Google — 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。 • Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之秀,风头直逼google。 • AltaVista — 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。 • Overture — 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 • Lycos — 发源于西班牙的搜索引擎,网络遍布世界各地。 • HotBot — 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。
搜索引擎:垂直搜索引擎 • 垂直搜索引擎:即专业或专用搜索引擎,它专门用来检索某一主题范围或某一类型信息,追求专业性与服务深度是它的特点。 • 垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且检索深度和分类细化远远优于综合搜索引擎。垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但 检出结果重复率低、相关性强 、查准率高,适合于满足较具体的 、针对性强的检索要求 。目前已经涉及到购物,旅游,汽车,工作,房产,交友等行业。
垂直搜索引擎举例:1 找工作的搜索引擎:http://www.deepdo.com/ google学术搜索:http://scholar.google.com/ google图书搜索:http://book.google.com/比价购物搜索引擎:http://go.8848.com/http://www.askyaya.com/博客与RSS搜索引擎:http://www.oao.cn/ [中客]http://so.blogchinese.com/ [博客中国人]http://www.feedsearch.net/http://www.8fang.net/ [八方 ]人脉搜索引擎: http://www.linkist.com/ [交友,找工作, 商机]https://www.linkedin.com/http://www.digdig.com.cn/ [人物、软件]论坛搜索引擎:http://www.teein.com/
垂直搜索引擎举例:2 The Music Finder http://www.music-finder.netSingingfish(只能搜寻声音和录像) http://www.singingfish.com旅行TripAdvisor http://www.tripadvisor.com计算机科学研究和文章 http://www.researchindex.com图像搜索引擎:http://cn.gograph.com/ [图像词典] 商业搜索引擎Business http://www.business.com生意定向搜索引擎。 DailyStocks http://www.dailystocks.com可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其他数据。 FMLX http://www.fmlx.com 英国定向的关于公司,存货数据,分析和研究的搜索引擎。 eBizSearch http://www.ebizsearch.org 关于电子商务的文章和报告。
综合搜索引擎的专门化趋势: • 搜狗(Sogou) [人物、音乐、购物、图片、地图] http://www.sogou.com/gengduo.htm • GOOGLE 学术搜索:http://scholar.google.com/ • GOOGLE 图书搜索http://book.google.com/ • AllTheWeb [能专门对图像、多媒体信息。] http://www.alltheweb.com
更多搜索引擎: • 参见“搜索引擎观察”之专门搜索引擎 • Answers Searching| Computer Search Engines • Domain Searching| Financial Search Engines • Government Search| Invisible Web • Legal Search Engines| Mailing Lists • Medical Search Engines| Newsgroup Search • Science Search Engines|Shopping Search • Travel Search Engines| WAP Search Engines
元搜索引擎 • 一次搜索多个搜索引擎,并将结果返回给用户。有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合。 优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。 缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也会漏掉一些重要信息。
早期的中文元搜索引擎1、metaFisher中文元搜索引擎 http://www.hsfz.net.cn/fish/做的较早,核心功能较弱,没有现代主流搜索引擎的界面风格。2、万纬搜索 http://www.widewaysearch.com/ 功能上和第一个元搜索引擎一样,核心功能很弱,制作一般3、多元搜索 http://web.soaso.com/做得较早,虽然号称整合的搜索引擎最多,但实际使用效果很差,查询速度也慢,返回结果基本未作处理。 • 新近出现的元搜索引擎1、知识搜索 http://www.zhihere.com/search/主要用作学习工具,功能上尽量保证全面实用2、一家搜 http://www.ejear.com/对相似结果的处理有点特色3、bbmao http://www.bbmao.com是国内唯一具有自动聚类功能的元搜索引擎,技术和功能上都比较强4、狠搜 http://www.hensou.com/可以定制源搜索引擎,同时提供商业信息搜索,核心功能一般
搜索引擎举例:GOOGLE A.通用检索法则:关键词的选择是核心。Google的关键词检索,所使用的关键词可以是字、单词,也可以是短语、词组或句子。使用Google进行检索非常简单,只要在搜索框内输入一个关键字,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。单个关键字搜索得到的信息量巨大,会带出海量的不相关信息,通常检索多是使用词语作为关键词。 复杂课题检索,主题分析后就要进行正确选词。使用Google,不同关键词的选择,将决定检索结果排列不同,而且选词不准,无法发挥Google强大的检索功能,影响检索效率。 Google搜索技巧[2005] http://lib.nit.net.cn/wxjs/google.htm
如果检索专业或学术性信息,建议在选择关键词时应注意以下几点:如果检索专业或学术性信息,建议在选择关键词时应注意以下几点: (1)选择专指性强的词 关键词专指性强弱是影响查准率的重要因素之一,选用专指性强的关键词,则检出的网站针对性较强,查准率较高。专指性强弱是对选词表达主题的深度而言,要深入分析检索主题,选择研究的对象及其重要参数、概念等名词术语;选择所应用的对文章起关链作用的基础理论、方法、设备等名称;选择反映重要研究成果的词。例如,查找“网络检索工具的历史”有关的信息,选词时选用“搜索引擎”一词,比选用“检索工具”一词,查准率会更高。
(2)多角度选词 关键词的确定必须经过对检索主题正确分析得到。复杂主题的关键词,要将反映该主题的各个主要方面的词汇都提炼出来,以提高文献的查全率。例如,查找“搜索引擎发展的历史”,因为搜索引擎的历史,是与互联网早期的文件检索工具“Archie”相关的。此外,搜索引擎有个核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,“Yahoo”是优秀搜索引擎的代表。因此,除了选择“搜索引擎”、“历史”外,还要选择“Archie”、“蜘蛛”、“Lycos”、“Yahoo”等词。这些词都是起关键作用的检索词。(2)多角度选词 关键词的确定必须经过对检索主题正确分析得到。复杂主题的关键词,要将反映该主题的各个主要方面的词汇都提炼出来,以提高文献的查全率。例如,查找“搜索引擎发展的历史”,因为搜索引擎的历史,是与互联网早期的文件检索工具“Archie”相关的。此外,搜索引擎有个核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,“Yahoo”是优秀搜索引擎的代表。因此,除了选择“搜索引擎”、“历史”外,还要选择“Archie”、“蜘蛛”、“Lycos”、“Yahoo”等词。这些词都是起关键作用的检索词。
(3)选择限制主题的词 在关键词确定之后,运用检索技术并不能保证检索出来的信息都满意,有时查询的结果太多太泛。由于Google只搜索包含关键词的网页,除了增加表达主题的关键词,还可增加限制性的词语作为关键词,以排除多余的信息。例如:输入“红旗-汽车”,将会找到关于红旗但不含“汽车”的网页。(3)选择限制主题的词 在关键词确定之后,运用检索技术并不能保证检索出来的信息都满意,有时查询的结果太多太泛。由于Google只搜索包含关键词的网页,除了增加表达主题的关键词,还可增加限制性的词语作为关键词,以排除多余的信息。例如:输入“红旗-汽车”,将会找到关于红旗但不含“汽车”的网页。
B 检索式的构建及检索实例 为了完整准确地表达检索需求,提高检索的精确度,正确选择关键词后,还需要了解和运用Google各种检索语法与技巧,根据Google提供的操作、运算符和使用规则说明,设计出一个高质量的检索式。
(1)逻辑检索Google用空格表示逻辑“与”操作,用减号“-”表示逻辑“非”操作。“A-B”表示搜索包含A但不包含B的网页。Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。(2)通配符检索 很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。为提供最准确的资料,Google不使用“词干法”,也不支持“通配符”(*)搜索。也就是说,Google只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。
(3)短语或者句子检索Google的关键词可以是单词,也可以是短语。用短语做关键字,必须加用英文双引号,否则空格会被当作“与”操作符。双引号中的词语(比如"自然与文化遗产" )在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。
(4)搜索引擎忽略的字符以及强制搜索Google对无实义的词或一些网路上出现频率极高的英文单词,如“i”、“com”、“www”、“的”等,以及一些符号如“*”、“.”等,作忽略处理。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。另一个强制搜索的方法是把上述的关键字用英文双引号引起来。例如,检索“internet上www的历史”,检索式为:+www+的历史internet。又如,“www的历史”中,“的”其实是忽略词,但因为被用英文双引号引起来,搜索引擎就强制搜索这一特定短语。注意:大部分常用英文符号(如问号、句号、逗号等)无法成为搜索关键字,强制也不行。(4)搜索引擎忽略的字符以及强制搜索Google对无实义的词或一些网路上出现频率极高的英文单词,如“i”、“com”、“www”、“的”等,以及一些符号如“*”、“.”等,作忽略处理。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。另一个强制搜索的方法是把上述的关键字用英文双引号引起来。例如,检索“internet上www的历史”,检索式为:+www+的历史internet。又如,“www的历史”中,“的”其实是忽略词,但因为被用英文双引号引起来,搜索引擎就强制搜索这一特定短语。注意:大部分常用英文符号(如问号、句号、逗号等)无法成为搜索关键字,强制也不行。
(5)检索式的实现 检索式的实现可以在搜索框内一次输入,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。也可以一次添加一个词语在“在此搜寻结果的范围内查询”。还可以不用操作符和运算符,在高级搜索查询网页中,按提示在搜索框内输入关键词的实现,如以上检索式4可分解写为“可包含以下全部的字词:历史;包含以下的完整字句:搜索引擎;包含以下任何一个字词:archie蜘蛛lycos yahoo;不包括以下字词:文化中国历史”。 用操作符和运算符时,须注意操作符与作用的关键字之间有否空格。比如“-”的使用,“搜索引擎 -文化”,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。“与”操作必须用大写的“OR”,留有空格且不是小写的“or”。双引号用英文引号等。
(6)搜索定义define:blog (7)特定文档搜索 filetype:pdf filetype:doc
3.2 网络资源指南 是由人工采集网上信息,然后按照一定分类标准,比如学科类型、主题等,建立网站分类目录,并将筛选后的信息分门别类放入各类目中供用户进行浏览。 优点:1 .信息组织的专题性较强,满足族性检索要求;2.使用简单,只要选择相关类目,依照页面之间的超链接指引很快就能到达目的信息,适于检索不熟悉的领域或建议不熟悉网络的用户使用. 缺点:1.人工采集信息的收录范围小,更新慢;2.受主观因素影响,类目设置不够科学,缺少规范
主要有三种类型: • 学科信息门户 • 搜索引擎目录[目录索引]:新浪目录http://dir.iask.com/ • 开放目录[ODP] http://dmoz.org/、 http://odp.163.com/中国艺术开放目录 http://www.aod.org.cn/http://china.ndodo.com/ 什么情况下使用网络资源指南? • 当检索一个范围较广的题目,并希望了解与该题目相关的信息时。 • 当没有明确的信息需求,仅仅想在网络上“溜达”时。 • 仅仅想浏览某一方面的消息和动态信息时,并不严格限于某几个检索词的。 • 当信息需求更专一时。