1 / 42

搜索引擎

搜索引擎. 搜索引擎. 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。. 搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 百度和谷歌等是搜索引擎的代表。. 全文搜索引擎是名副其实的搜索引擎,国外代表有 Google ,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。.

Download Presentation

搜索引擎

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 搜索引擎

  2. 搜索引擎 • 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

  3. 搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 • 百度和谷歌等是搜索引擎的代表。

  4. 全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

  5. 目录索引,虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。目录索引,虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

  6. 元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。

  7. 垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

  8. 集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

  9. 门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

  10. 工作原理 • 抓取网页 • 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

  11. 处理网页 • 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

  12. 提供检索服务 • 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

  13. 搜索引擎历史 • 起源 • 所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。

  14. 发 展(1) • Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。 • 注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile

  15. 发 展(2) • 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。 • 注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务

  16. 发 展(3) • 1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 • 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

  17. 发 展(4) • 智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

  18. 百度 • 百度(Nasdaq:BAIDU)是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

  19. 百度搜索特色 • 百度快照 • 如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题。每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当您遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。

  20. 相关搜索 • 搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。

  21. 拼音提示 • 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。只要您输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。 拼音提示显示在搜索结果上方。

  22. 错别字提示 • 由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。

  23. 英汉互译词典 • 百度网页搜索内嵌英汉互译词典功能。如果您想查询英文单词或词组的解释,您可以在搜索框中输入想查询的“英文单词或词组”+“是什么意思”;如果您想查询某个汉字或词语的英文翻译,您可以在搜索框中输入想查询的“汉字或词语”+“的英语”。

  24. 计算器 • Windows 系统自带的计算器功能过于简陋,尤其是无法处理一个复杂计算式,很不方便。而百度网页搜索内嵌的计算器功能,则能快速高效的解决您的计算需求。

  25. 度量衡转换 • 在百度的搜索框中,您也可以做度量衡转换。格式如下: • 换算数量换算前单位=?换算后单位

  26. 专业文档搜索 • 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。

  27. 股票、列车时刻表和飞机航班查询 • 在百度搜索框中输入股票代码、列车车次或者飞机航班号,您就能直接获得相关信息。

  28. 天气查询 • 使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。 • 在百度搜索框中输入您要查询的城市名称加上天气这个词,您就能获得该城市当天的天气情况。

  29. 货币换算 • 要使用百度的内置货币换算器,只需在百度网页搜索框中键入您需要完成的货币转换,单击“回车”键或点击“百度一下”按钮即可。

  30. 搜索框提示 • 百度会根据您的输入内容,在搜索框下方实时展示最符合的提示词。您只需用鼠标点击您想要的提示词,或者用键盘上下键选择您想要的提示词并按回车,就会返回该词的查询结果。 您不必再费力地敲打键盘即可轻松地完成查询。

  31. 高级搜索语法 • 把搜索范围限定在网页标题中——intitle • 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。

  32. 把搜索范围限定在特定站点中——site • 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。

  33. 把搜索范围限定在url链接中——inurl • 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。

  34. 精确匹配——双引号和书名号 • 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。

  35. 要求搜索结果中不含特定查询词 • 如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。

  36. 百度图片搜索 • 筛选栏 • 筛选栏在搜索结果页面的左侧,默认为隐藏状态。您可以使用该工具栏,同时对搜索结果的尺寸、颜色和类型进行筛选。

  37. 把搜索范围限定在特定网页中——ft • 有时候,您如果知道某些网页中有自己需要找的图片,就可以把搜索范围限定在这些网页中,提高查询效率。使用方式是:在查询内容的后面加上“ft:网页地址”。

  38. 把搜索范围限定在特定站点中——site • 有时候,您如果知道某个站点中有自己需要找的图片,就可以把搜索范围限定在这个站点中,提高查询效率。使用方式是:在查询内容的后面加上“site:站点域名”。

  39. 常见的搜索失败 • 搜索引擎没有帮你找到想要的内容,原因: • 一,用来搜索的关键词太短; • 二,要搜索的内容太常见,以至网上有巨大数量的相关内容 • 链接失败,搜索到的网站已不存在 • 上次能搜到的内容,这次却搜不到,搜索引擎永不停息的从它们的索引库中抛弃已索引的网页

  40. 常见错误 • 错别字,如:周小川,周晓川 • 关键词太常见 • 多义词,如:Java • 不输入关键词,想要什么输入什么 • 在错误的地方搜索

More Related