120 likes | 305 Views
搜索引擎 in a nutshell. 概念 和 分类 发展历史 工作原理 系统组成 技术发展趋势 商务模式. 搜索引擎 – 概念. 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统 搜索引擎包括全文搜索引擎、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等. 搜索引擎 – 分类.
E N D
搜索引擎 in a nutshell 概念 和 分类 发展历史 工作原理 系统组成 技术发展趋势 商务模式
搜索引擎 – 概念 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统 搜索引擎包括全文搜索引擎、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等
搜索引擎 – 分类 全文搜索引擎 从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果 (Google、百度) 目录索引 严格意义上不能称为真正的搜索引擎,只是一个黄页。用户按照分类目录找到所需要的信息,不依靠关键词查询(Yahoo、新浪分类目录搜索) 垂直搜索 专注于特定的搜索领域和搜索需求,追求更好的用户体验。需要的硬件成本低、用户需求特定而查询方式多样 元搜索引擎 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户(InfoSpace、Dogpile、Vivisimo、搜星) 集合式搜索引擎 类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择 其它
搜索引擎 – 发展历史(1) 1990年,Univ. of McGill师生开发出Archie是第一个自动索引互联网上匿名FTP网站文件的程序被公认为现代搜索引擎的鼻祖 1993年2月,Stanford University大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,开发出Excite曾以概念搜索闻名 1994年4月,Stanford University的杨致远和David Filo共同创办了Yahoo!。Yahoo目录开始支持简单的数据库搜索。数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 1994年7月,Carnegie Mellon的Mauldin创建了Lycos。Lycos提供了前缀匹配和字符相近限制,第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年,第一个元搜索引擎Metacrawler由Univ. of Washington的Selberg 和 Etzioni 开发的 ,但搜索效果始终不理想
搜索引擎 – 发展历史(2) 1995年,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索、第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。 1996年,sohu公司成立,制作中文网站分类目录, sohu于2004年8月创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 1999年,Google完成了从Alpha版到Beta版的蜕变。Google根据Pagerank算法判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉 2000年,李彦宏与徐勇创立了百度Baidu,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
搜索引擎 – 工作原理 抓取网页 每个独立的搜索引擎都有自己的网页抓取程序Spider,它顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。 由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页 搜索引擎抓到网页后,还要做大量的处理工作才能提供检索服务。其中最重要的是提取关键词和建立索引,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
搜索引擎 – 系统组成 搜索器 在互联网中漫游,发现和搜集信息; 索引器 理解搜索器采集到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器 根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息; 用户接口 负责接纳用户查询、显示查询结果、提供个性化查询项。
搜索引擎 – 技术发展趋势 提高搜索引擎对用户检索提问的理解 对检索结果进行处理 (基于链接评价的、基于访问大众性的、去掉检索结果中多余信息) 确定搜集范围,细化主题 扩展搜索内容(多媒体!SoundHound!基于内容的检索!) 更好的用户体验(Google yes Yahoo! no)
搜索引擎 – 发展历史(1) 1990年,Univ. of McGill师生开发出Archie是第一个自动索引互联网上匿名FTP网站文件的程序被公认为现代搜索引擎的鼻祖 1993年2月,Stanford University大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,开发出Excite曾以概念搜索闻名 1994年4月,Stanford University的杨致远和David Filo共同创办了Yahoo!。Yahoo目录开始支持简单的数据库搜索。数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 1994年7月,Carnegie Mellon的Mauldin创建了Lycos。Lycos提供了前缀匹配和字符相近限制,第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年,第一个元搜索引擎Metacrawler由Univ. of Washington的Selberg 和 Etzioni 开发的 ,但搜索效果始终不理想
搜索引擎 – 发展历史(2) 1995年,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索、第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。 1996年,sohu公司成立,制作中文网站分类目录, sohu于2004年8月创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 1999年,Google完成了从Alpha版到Beta版的蜕变。Google根据Pagerank算法判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉 2000年,李彦宏与徐勇创立了百度Baidu,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
搜索引擎 – 商务模式(1) 在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。 现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)是Bill Gross提出的“在搜索结果页面放置广告,通过用户的点击向广告主收费”。这种模式有两个特点:一是点击付费(Pay Per Click),用户不点击则广告主不用付费;二是竞价排序,根据广告主的付费多少排列结果。 AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页内放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎并陆续被其他搜索引擎采用。
搜索引擎 – 商务模式(2) 2010年4月,某咨询机构发布的中国搜索引擎市场份额报告显示: 2009年全球搜索引擎市场规模达339.0亿美元。中国搜索引擎市场规模达69.6亿元(约合10.2亿美元),相比2008年的50.3亿元年同比增长38.5%。 2009年中国网页搜索请求量规模为2033.8亿次,年同比增长35.7%。 2007年至2009年,中国搜索请求量规模在全球请求量规模中占比分别为15.6%、 19.7%和20.6% 2009年中国搜索引擎市场双寡头特征加剧,营收方面,百度、谷歌二者营收份额之和为96.2%;流量方面,百度谷歌网页搜索请求量份额之和达94.9%,基本垄断中国搜索引擎市场 搜索引擎优化! (好多书讲!都是从营销的角度玩的)