230 likes | 353 Views
第七章网上信息检索. 7.1 搜索引擎. 搜索引擎的应用现状 从用户使用的角度,国外的调查发现: 网上搜索信息的人很少考虑如何找到他们所需要的 信息,因此搜索信息时象动物猎食般盲目; 只有 18% 的用户表示总能在网上搜索到需要的信 息。 68% 的用户说他们对搜索引擎很失望; 平均每个搜搜者在 12 分钟的徒劳搜索后就感到恼火 和受挫。 46% 的人只会用同一个关键词搜啊搜啊,而且是在 同一个搜索引擎。. 国外的应用状况. 那些每周平均花 5 个小时以上时间上网的人,将其上网时间的 71% 都花在了搜索引擎上;
E N D
7.1 搜索引擎 • 搜索引擎的应用现状 • 从用户使用的角度,国外的调查发现: • 网上搜索信息的人很少考虑如何找到他们所需要的 信息,因此搜索信息时象动物猎食般盲目; • 只有18%的用户表示总能在网上搜索到需要的信 息。68%的用户说他们对搜索引擎很失望; • 平均每个搜搜者在12分钟的徒劳搜索后就感到恼火 和受挫。 • 46%的人只会用同一个关键词搜啊搜啊,而且是在 同一个搜索引擎。
国外的应用状况 • 那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上; • 人机界面高手nielsen(google的设计者)研究表明: • 略超过1/2的互联网用户属于search-dominant, • 约1/5用户属于link-dominant, • 其它用户的搜索倾向属于混合行为型。 • search-dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度找到信息。 • 相反,link-dominant喜欢点击浏览一个网站,即使他们想找特殊信息时也是这样,只有在他们用点击超链的方法已经实在找不到了,才会想起搜索按钮。
搜索引擎的分类及原理 • 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: • 1.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、OpenFind等。
2.目录式搜索引擎 • 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
3.元搜索引擎 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。
主要技术 • 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 • 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。
索引器 2.索引器 • –索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 • –索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
检索器和用户接口 • 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 • 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯
值得推荐的几个中文搜索引擎 全文搜索 –衡量搜索引擎的指标: •查全率 •查准率 •速度 •哪个重要? –Google: http://www.google.com(需要出国访问权限) •新浪使用了它的全文搜索引擎服务 •说明:这是2004年4月的情形,各大门户网站使用的搜索引擎服务经常会变化,留意Powered by… –百度:http://www.baidu.com •21CN使用了它的全文搜索引擎服务 –中国搜索(原来的慧聪搜索)http://www.zhongsou.com •网易、搜狐、263使用了它的搜索引擎。 –北大天网:http://e.pku.edu.cn •大量教育网内的资源,提供FTP搜索 –几大门户网站也有自己的搜索引擎,有时也能发挥作用。
推荐的搜索引擎 网站分类目录搜索 –新浪:其网站搜索最好 –搜狐:网站的分类目录整理最好,最适合于浏览 –网易:开放式目录,有许多网上高手加盟 –中文Yahoo –另类:网络实名http://www.3721.com ♦新浪图片搜索: pic.sina.com.cn –新视科技:www.VisionNext.com.cn,提供多媒体搜索 ♦找地图 –城市通:www.chinaquest.com –图行天下:www.go2map.com.cn
使用Google进行搜索 Google简介 –Google是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。1998年至今,Google已经获得30多项业界大奖。 –Google支持多达132种语言,包括简体中文和繁体中文; –Google网站只提供搜索引擎功能,没有花里胡哨的累赘; –Google速度极快,据说有10000多台服务器,200多条T3级宽带; –Google的专利网页级别技术PageRank能够提供高命中率的搜索结果; –Google智能化的“手气不错”功能,提供可能最符合要求的网站; –Google的“网页快照”功能,能从GOOGLE服务器里直接取出缓存的网页。
文本搜索 文本搜索 –目前Google已经收集索引了40多亿张网页 –使用单个关键词进行搜索 •理解什么是“关键词”,跟普通意义上的关键词不同。 •想象目标网页上应该有的若干个词。 •网页的排名问题 –使用两个及两个以上关键词进行搜索 •直接输入多个关键词,关键词之间用空格,这样就表示“AND”关系; •用减号“-”表示“非”,用于表示要求搜索结果不包含某些特定信息; •Google的帮助网页上说,不支持OR关系,实际上是支持得不好; –使用一句话进行搜索 –加上双引号。这在查找名言警句或专有名词时显得格外有用。 •Google对网络上常见得英文单词及一些标点符号作忽略处理
图象搜索 目前Google可搜索8.8亿张图片,自称为“因特网上最好用的图像搜索工具” –Images.google.com或点击Google主页上的“图象搜索”链接。 –目前的图象搜索主要是基于文件名的搜索,不是基于图象内容的。 ♦用法: –关键词的输入方法同文字搜索,不过搜索图象一般不会用太长、太复杂的关键词。 –图象搜索中,使用英文作关键词可以搜到许多准确的结果,使用中文,效果较差,但有时Google会自动转换为英文或中文的拼音去搜索(有时欠稳定,其他内容的搜索也有此现象)。 –可以指定图片文件的类型:JPG或GIF •如panda filetype:jpg
搜索特殊格式的文件 • 目前可搜索的文件格式: • –DOC、PPT、XLS、RTF、PS、TXT、Lotus文件; • –PDF格式 • –最精彩的,可搜索Flash文件:SWF文件 • ♦方法: • –关键词filetype:*** • –搜索包含关键词的文档(但又不尽然)。搜索到后,可点击打开,也可右键快捷菜单用“另存为”。对于Office文档,还可以用HTML方式打开,以避免病毒的袭击。
其他特殊的搜索 搜索的关键词包含在URL链接中 –Inurl:mp3 yesterday once more –可用于搜索MIDI、MP3等文件 ♦搜索的关键词包含在网页标题中 –Intitle:FoshanUniversity ♦搜索指定的网站范围 –在图象搜索中,用:Panda site:edu.cn ♦搜索有多少链接到某个地址的网页 –Link:fosu.edu.cn
Google的高级搜索 Google的高级搜索可实现前面所说的各种特殊的搜索,免除用户记忆语法结构。 • –在Google的网页上,点击“高级搜索”即可。 • –推荐大家使用英文版的Google,以及英文版的帮助文档。http://www.google.com/about.html
天网的FTP搜索 地址:http://bingle.pku.edu.cn –缺点:死链接太多,许多是学生的服务器,运行不稳定 ♦简单搜索 –输入要查询的文件名,可以包含“*”号(通配所有字符)、“?”号(通配一个字符)、空格(表示几个查询的并)。 ♦按类别搜索文件 –点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。 ♦使用快捷方式(已经做好的分类) –天网搜索引擎为用户常用的搜索提供了快捷方式,使用起来极为简单,直接点击快捷方式下所要的内容即可。
天网FTP FTP复杂搜索: –从FTP检索页面里点击“FTP复杂选项”进入“FTP复杂搜索”页面。在复杂搜索页面里,如果没有填写或者没有选择,表示使用缺省值。 –文件大小过滤: –文件日期过滤: –页面显示个数: –文件类型: –限定搜索的站点范围 ♦结果显示: –每个结果前的图标是该文件的文件类型图片,表示“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”或者表示搜索引擎系统未定义的文件类型; –图标后是文件名,点击可以打开文件;文件名后是文件的创建时间和文件的大小; –文件名下方是该文件所在的目录,点击可以在新的窗口里打开该目录。
关于软件的搜索 软件下载网站主要有三类: ♦大型软件下载网站 –主要提供普通的免费和共享软件。如:www.skycn.com ♦软件主页 –一些最新版本的共享软件以及软件的补丁,或者软件公司推出的免费软件。如:Microsfot、Adobe、Lotus等公司的站点 ♦个人主页下载 –可以找到正式网站找不到的内容。 ♦在教育网内,许多情况下可以用天网的FTP搜索。 ♦如果用搜索引擎,则选择关键词很重要。通常 可用以下关键词: 软件名 下载版本 cdkey 软件大小
使用网络实名 • 登陆www.3721.com, 为自己的电脑开启网络实名功能。 • –“3721网络实名”是新一代的网络访问技术,它具有十大功能,其中智能推测、拼音使用等功能可以帮助我们搜索那些名称不确切的网址。 • –访问新浪,只要在地址栏打入“新浪”或“xinlang”即可 • –例如:在浏览器地址栏中输入上市公司股票代码,就可以获取实时行情
优秀的电子信息资源 查找论文等,就不需要使用普通的搜索引擎了。 ♦中国期刊网(CNKI):佛大镜像202.192.172.22 ♦万方数据:http://www.wanfangdata.com.cn/ ♦各个专业都有自己的专业信息资源 –如中文的新闻类: •中新社www.chinanews.com.cn •新华社www.xinhua.net 外交部各国资料:www.fmprc.gov.cn
如何才能有效地搜索? 理解搜索引擎的原理和基本的使用技术 –对于中文,要理解“分词”。 ♦勤奋:大量实践,仔细体会每个搜索引擎的特色和功能。搜索时的坚持不懈。 ♦积累:平时多注意积累优秀的专业网站和数据库 ♦学问:要博学多闻 ♦天资:主要是想象力、判断力