630 likes | 771 Views
图书馆信息技术部. Information Department of Library. 图书馆信息技术部. 第二章 网络信息资源的检索与利用. 图书馆信息技术部. Information Department of Library. 图书馆信息技术部. 本章的主要内容:. 搜索引擎 是人们获取网络信息最常用的工具。. 什么是搜索引擎. 搜索引擎的类型. 搜索引擎的历史. 神奇的 Google. 检索策略与技巧. 图书馆信息技术部. Information Department of Library. 图书馆信息技术部. 什么是搜索引擎?.
E N D
图书馆信息技术部 Information Department of Library 图书馆信息技术部 第二章 网络信息资源的检索与利用
图书馆信息技术部 Information Department of Library 图书馆信息技术部 本章的主要内容: • 搜索引擎是人们获取网络信息最常用的工具。 什么是搜索引擎 搜索引擎的类型 搜索引擎的历史 神奇的Google 检索策略与技巧
图书馆信息技术部 Information Department of Library 图书馆信息技术部 什么是搜索引擎? • 1.搜索引擎(search engine) • 是指根据一定的检索策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。 • 数据来源:百度百科
图书馆信息技术部 Information Department of Library 图书馆信息技术部 2.工作原理 • 是利用其内部的一个叫Spider(蜘蛛)的程序,自动提取网站的信息和网址加入自己的数据库,供用户查询。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 搜索引擎的类型 • 目录式搜索引擎 • 全文搜索引擎 • 元搜索引擎 渐行渐远 如日中天 方兴未艾
图书馆信息技术部 Information Department of Library 图书馆信息技术部 2.1目录式搜索引擎 • 目录式搜索引擎:具有搜索功能,严格意义上不是真正的搜索引擎,是靠分类目录检索,用户通过逐级层层点击浏览类目,导找自己所需的信息。 • 因此,用户必须清楚信息所属的类别,才能找到相关的网站。 • 如:Yahoo!、Open Directory 、 Infoseek、 Excite等
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Open Directory http://www.dmoz.org/
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Infoseek:http://go.com/
图书馆信息技术部 Information Department of Library 图书馆信息技术部 2.2全文搜索引擎 • 是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 • 数据来源:百度百科
图书馆信息技术部 Information Department of Library 图书馆信息技术部 常见的全文搜索引擎 • 国内:百度、天网、悠游、OpenFind、搜狗、爱问、中搜等 • 国外:AltaVista、FAST、Lycos 、Northern Light 、Google等
图书馆信息技术部 Information Department of Library 图书馆信息技术部 2.3元搜索引擎 • 它是通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。 • 数据来源:百度百科
图书馆信息技术部 Information Department of Library 图书馆信息技术部 常见的元搜索引擎 • 中文元搜索引擎:万纬搜索、北斗搜索 • 外文元搜索引擎:Ask 、Chubba 、Cyber411 、Infind 、OneSeek 、Savvy Search 、SurfWax
图书馆信息技术部 Information Department of Library 图书馆信息技术部 万纬
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Cyber411
图书馆信息技术部 Information Department of Library 图书馆信息技术部 搜索引擎的发展历史 • 缘起:1990年,Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。 • Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(一):第一个搜索引擎 • 世界上第一个Spider程序,是MIT Matthew Gray的万维网爬行者(World wide Web Wanderer),用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(二):Excite • Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。 • 优点:采用智能概念抽取,能自动编制摘要,且摘要具有一定的可读性。 • 缺点:相关性排序质量一般。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 网站:www.excite.com
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(三):Yahoo! • 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!目前采用网络自动索引、人工索引相结合的方式。 • 优点:该系统反应速度快、查准率高,信息处理过程中增加了人类的智慧,收录的网页经过筛选和系统组织,质量较高,条理性比较强,检索结果接近用户的信息需求。 • 缺点:采集信息的速度远远比不上网络资源的增长速度,所建立的数据库的规模都比较小,因此检索到的文献数量有限,对于专业性较强的查询很难提供满意的结果。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 网站:www.yahoo.com
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(四):Altavista • 1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT等)。 • AltaVista用户界面友好,检索速度快,信息量大,支持28个国家的信息检索,是当时功能最全面、查全率最高的搜索引擎之一。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 网站:www.altavista.com
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Lycos:http://www.lycos.com/
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(五):Google • 1995年,斯坦福大学的两个博士生Larry Page 和 Sergey Brin 共同开发了全新的在线搜索引擎Google,并于1997年9月15日注册了google.com的域名。1998年9月27日认作自己的生日。 • Google 被公认为目前全球规模最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间得到相关搜索结果。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(六):中文搜索引擎 • 悠游,1996年在香港成立。一个极具高度智慧的中文搜索器,自动转换繁、简体字。 • Openfind 创立于1998年1月,由台湾中正大学吴升教授创建。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 发展(七):百度 • 2000年1月由李彦宏、徐勇两人创立于北京中关村。 • 2005年8月6日,百度在纳斯达克上市。 • 成为全球最大的中文搜索引擎。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 • 除此之外,每个学科都有自己的学术交流平台/网站。 • 同样,每个学校也为本校的学生创建交流平台,如BBS、虚拟社区、博客圈、QQ群,这些都是大家获取信息的源泉。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 神奇的Google • Google之文件搜索 • Google之图片搜索 • Google之字典翻译 • Google之图书搜索 • Google之代码搜索 • Google之学术搜索 • Google之音乐搜索
图书馆信息技术部 Information Department of Library 图书馆信息技术部 4.1 文件搜索之高级语法 • Site:在某一类站点中查找信息 • Filetype:在某一类文件中查找信息 • Inurl:搜索的关键词包含在URL链接中 • Intitle:搜索的关键词包含在标题中
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Site语法功能 • “site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“edu.cn”等等。 • 例:想查找台州学院网页上关于你自己的信息,该怎么查找?
图书馆信息技术部 Information Department of Library 图书馆信息技术部 • 作业:最近网上关于“犀利哥”的报道铺天盖地,想查找一下发布在天涯论坛上关于“犀利哥”的全部帖子,请问如何检索?
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Filetype语法功能 • “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些文档进行检索,如.xls、.ppt、.doc、.pdf、.swf等。目前Google检索的PDF文档大约有2500万左右。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 • 例:假如你是一家企业的企划部负责人,老总突然要求你写一个本企业的网络营销策划方案,而你有没有这方面的资料怎么办? • 检索提问式:“网络营销策划方案+ filetype:doc 或者 filetype:ppt”
图书馆信息技术部 Information Department of Library 图书馆信息技术部
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Inurl语法功能 • inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。 • 例如:inurl:凤姐 风姐夫
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Intitle语法功能 • “intitle” 的用法类似于上面的inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 • 举例:搜索关于obama的speech • 检索提问式:“intitle:obama speech”
图书馆信息技术部 Information Department of Library 图书馆信息技术部 注意事项 • Site、filetype、inurl、intitle后面的“:”必须是英文符号; • “:”后面的关键词必须紧挨着冒号,不许加空格; • 各语法功能可以复合使用。
图书馆信息技术部 Information Department of Library 图书馆信息技术部 4.2 Google之图片搜索 • 支持顺序检索 • 例如:Sergey Brin and Larry Page
图书馆信息技术部 Information Department of Library 图书馆信息技术部 • 请搜索出五副具有中国元素的Google logo; • What:理解什么是中国元素?什么是Google logo? • Where:Google图片 • Google+logo+中国(春节、中秋、端午、清明等)
图书馆信息技术部 Information Department of Library 图书馆信息技术部
图书馆信息技术部 Information Department of Library 图书馆信息技术部 4.3 Google之翻译功能 • Google之翻译
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Google之整段翻译 • [摘要]随着信息技术的迅猛发展及其在社会各个领域中得到广泛应用,信息素养作为生活在现代社会中的公民所必须具备的基本素质,越来越受到世界各国的关注和重视。本文认为信息素养不仅包括使用信息工具和信息资源的能力,还包括获取识别信息、加工处理信息、传递创造信息的能力,更重要的是以独立自主学习的态度和方法、以批判精神以及强烈的社会责任感和参与意识,将这些信息能力用于实际问题的解决和进行创新性思维的综合的信息能力。
图书馆信息技术部 Information Department of Library 图书馆信息技术部
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Google之字典翻译(dictionary)
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Google之网页翻译功能
图书馆信息技术部 Information Department of Library 图书馆信息技术部 Google之其他功能 • Google之图书搜索 • Google之代码搜索 • Google之学术搜索 • Google之音乐搜索 • ······ Gmail G-talk G-earth Picasa
图书馆信息技术部 Information Department of Library 图书馆信息技术部 检索策略与检索技巧 • 什么是检索策略? • 检索策略即检索的基本思路,是根据检索课题要求选择便捷的方法、适当的工具、在适宜的地方,查找需要的资料。
图书馆信息技术部 Information Department of Library 图书馆信息技术部
图书馆信息技术部 Information Department of Library 图书馆信息技术部 5.1 检索策略 • 检索案例的主题分析 • 关键词的提取 • 关键词的组配 • 根据检索结果调整检索策略 • 寻找信息发布源