1 / 12

搜索引擎 in a nutshell

搜索引擎 in a nutshell. 概念 和 分类 发展历史 工作原理 系统组成 技术发展趋势 商务模式. 搜索引擎 – 概念. 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统 搜索引擎包括全文搜索引擎、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等. 搜索引擎 – 分类.

anisa
Download Presentation

搜索引擎 in a nutshell

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 搜索引擎 in a nutshell 概念 和 分类 发展历史 工作原理 系统组成 技术发展趋势 商务模式

  2. 搜索引擎 – 概念 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统 搜索引擎包括全文搜索引擎、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等

  3. 搜索引擎 – 分类 全文搜索引擎 从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果 (Google、百度) 目录索引 严格意义上不能称为真正的搜索引擎,只是一个黄页。用户按照分类目录找到所需要的信息,不依靠关键词查询(Yahoo、新浪分类目录搜索) 垂直搜索 专注于特定的搜索领域和搜索需求,追求更好的用户体验。需要的硬件成本低、用户需求特定而查询方式多样 元搜索引擎 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户(InfoSpace、Dogpile、Vivisimo、搜星) 集合式搜索引擎 类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择 其它

  4. 搜索引擎 – 发展历史(1) 1990年,Univ. of McGill师生开发出Archie是第一个自动索引互联网上匿名FTP网站文件的程序被公认为现代搜索引擎的鼻祖 1993年2月,Stanford University大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,开发出Excite曾以概念搜索闻名 1994年4月,Stanford University的杨致远和David Filo共同创办了Yahoo!。Yahoo目录开始支持简单的数据库搜索。数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 1994年7月,Carnegie Mellon的Mauldin创建了Lycos。Lycos提供了前缀匹配和字符相近限制,第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年,第一个元搜索引擎Metacrawler由Univ. of Washington的Selberg 和 Etzioni 开发的 ,但搜索效果始终不理想

  5. 搜索引擎 – 发展历史(2) 1995年,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索、第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。 1996年,sohu公司成立,制作中文网站分类目录, sohu于2004年8月创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 1999年,Google完成了从Alpha版到Beta版的蜕变。Google根据Pagerank算法判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉 2000年,李彦宏与徐勇创立了百度Baidu,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。

  6. 搜索引擎 – 工作原理 抓取网页   每个独立的搜索引擎都有自己的网页抓取程序Spider,它顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。 由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页   搜索引擎抓到网页后,还要做大量的处理工作才能提供检索服务。其中最重要的是提取关键词和建立索引,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务   用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

  7. 搜索引擎 – 系统组成 搜索器 在互联网中漫游,发现和搜集信息; 索引器 理解搜索器采集到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器 根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息; 用户接口 负责接纳用户查询、显示查询结果、提供个性化查询项。

  8. 搜索引擎 – 技术发展趋势 提高搜索引擎对用户检索提问的理解 对检索结果进行处理 (基于链接评价的、基于访问大众性的、去掉检索结果中多余信息) 确定搜集范围,细化主题 扩展搜索内容(多媒体!SoundHound!基于内容的检索!) 更好的用户体验(Google yes Yahoo! no)

  9. 搜索引擎 – 发展历史(1) 1990年,Univ. of McGill师生开发出Archie是第一个自动索引互联网上匿名FTP网站文件的程序被公认为现代搜索引擎的鼻祖 1993年2月,Stanford University大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,开发出Excite曾以概念搜索闻名 1994年4月,Stanford University的杨致远和David Filo共同创办了Yahoo!。Yahoo目录开始支持简单的数据库搜索。数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 1994年7月,Carnegie Mellon的Mauldin创建了Lycos。Lycos提供了前缀匹配和字符相近限制,第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年,第一个元搜索引擎Metacrawler由Univ. of Washington的Selberg 和 Etzioni 开发的 ,但搜索效果始终不理想

  10. 搜索引擎 – 发展历史(2) 1995年,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索、第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。 1996年,sohu公司成立,制作中文网站分类目录, sohu于2004年8月创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 1999年,Google完成了从Alpha版到Beta版的蜕变。Google根据Pagerank算法判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉 2000年,李彦宏与徐勇创立了百度Baidu,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。

  11. 搜索引擎 – 商务模式(1) 在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。 现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)是Bill Gross提出的“在搜索结果页面放置广告,通过用户的点击向广告主收费”。这种模式有两个特点:一是点击付费(Pay Per Click),用户不点击则广告主不用付费;二是竞价排序,根据广告主的付费多少排列结果。 AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页内放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎并陆续被其他搜索引擎采用。

  12. 搜索引擎 – 商务模式(2) 2010年4月,某咨询机构发布的中国搜索引擎市场份额报告显示: 2009年全球搜索引擎市场规模达339.0亿美元。中国搜索引擎市场规模达69.6亿元(约合10.2亿美元),相比2008年的50.3亿元年同比增长38.5%。 2009年中国网页搜索请求量规模为2033.8亿次,年同比增长35.7%。 2007年至2009年,中国搜索请求量规模在全球请求量规模中占比分别为15.6%、 19.7%和20.6% 2009年中国搜索引擎市场双寡头特征加剧,营收方面,百度、谷歌二者营收份额之和为96.2%;流量方面,百度谷歌网页搜索请求量份额之和达94.9%,基本垄断中国搜索引擎市场 搜索引擎优化! (好多书讲!都是从营销的角度玩的)

More Related