580 likes | 739 Views
第 11 章 信息检索与信息发布. 信息检索与信息发布. 问题的提出. 互联网是信息的海洋。在互联网上查找需要的信息不好比是大海捞针吗? 有没有便捷的方法和工具帮助我们检索信息? 什么工具可用来检索信息? ……. 重点内容. 1. 信息检索的基本概念 2. 检索意愿的表达 3. 天网搜索引擎使用介绍 4. Yahoo 使用方法简要介绍 5. 中国期刊网( CNKI )使用介绍 6. 信息发布方法介绍. 一、信息搜索概述. 信息搜索 检索信息的途径 常用信息检索系统类型 网络检索系统 具体信息搜索步骤. 1 、信息搜索.
E N D
第11章 信息检索与信息发布 信息检索与信息发布
问题的提出 • 互联网是信息的海洋。在互联网上查找需要的信息不好比是大海捞针吗? • 有没有便捷的方法和工具帮助我们检索信息? • 什么工具可用来检索信息? • ……
重点内容 1. 信息检索的基本概念 2. 检索意愿的表达 3. 天网搜索引擎使用介绍 4. Yahoo使用方法简要介绍 5. 中国期刊网(CNKI)使用介绍 6. 信息发布方法介绍
一、信息搜索概述 • 信息搜索 • 检索信息的途径 • 常用信息检索系统类型 • 网络检索系统 • 具体信息搜索步骤
1、信息搜索 • Internet上的信息资源丰富得让人有点儿无所适从,尤其是对刚刚踏入Internet网络世界的生手,更是令人扑朔迷离,难以理出头绪。 • 有人比喻Internet上的信息就如同许多堆杂乱无章的书籍,只是在每堆书籍上列出此堆书籍中涉及的内容及书名,但要找到具体书籍则需自己不辞劳苦地一一查找了。 • 无需置疑,Internet上众多的信息资源中肯定有你所需的信息,若清楚信息的存放地址,通过在线获取这些信息是快捷而便利的,但是主要问题是如何找到这些信息。
⑴文献 • 文献是知识、载体和记录三要素构成,是记录有知识的一切载体的总和。包括载体与知识两部分。 • 远古时期的结绳记事:绳子+每个结表示的含义; • 甲骨文时期:大动物的骨头、龟壳+记录的内容; • 竹简时期:竹子+记录的内容; • 纸张时代:书、手稿等+记录的内容; • 现代:音像制品、电子出版物等+记录的内容。
⑵ 信息 • 从客观上说,信息是指一切事物存在方式和运动规律的表征,或我们对周围世界的一种认识。有正确与错误之分。 • 总是看到太阳从东方升起,古代人想我们站在一个平板上,太阳绕地球转;现代人想我们站在地球上,地球绕着太阳转; • 看到一块铁与一堆棉花,我们会认为铁一定比棉花重,难道一小块铁比一火车棉花还要重?
⑶信息检索 • 信息检索是指将杂乱无序的信息有序化形成信息集合,并根据需要从信息集合中查找出特定信息的过程。 • 其实质是将用户的需求与信息集合内的信息进行比较,如果匹配,信息就被查找出来,否则就查不出来。 • 匹配有多种方式;完全匹配、部分匹配。
检索效果 • 查全率 R (Recall ratio) • 查准率 P (Precision ratio)
2. 检索信息的途径 • 在Internet上查找信息的途径有很多种,可大致分为以下几种: ① 偶然发现 ② 浏览(Browsing) ③ 搜索(Searching) ④ 通过资源指南(Resource Guide) ⑤ 搜索引擎
⑴偶然发现 • 这是在Internet中发现信息的原始方法。当你在Internet上遨游之时,也许会意外发现一些很有用的信息。 • 由于这种方法的不可预见性,所以它也许很有乐趣,但也许会一无所获。
⑵浏览(Browsing) • 浏览就如同走进图书馆的书库,然后在书架上直接翻看一样。 • 目前Internet上提供的Gopher服务就是这种方法的电子等价物。WWW提供的超文本方式可以看作是浏览的一种特殊形式。
⑶搜索(Searching) • 搜索就像通过索引或分类卡片来帮助查找一样。 • 在Internet中有许多不同类型的搜索工具,如WAIS、Archie、Veronia、Jughead等,它们都有各自不同的搜索目的。 • 还有许多网点则提供给用户一种组合式的搜索界面。
⑷通过资源指南 • 目前Internet上有许多资源指南。如 http://www.rpi.edu/Internet/Guides/decemj/icmc/toc3.htm1 它搜索了关于Internet各种技术、文化、组织、应用等大量的信息指针。用户可利用这些指针进行资源引导。但是应注意Internet上的信息变化极快,几乎每六个月就需对这些信息进行更新,参照的资源指南可能已经过时。 • Internet上提供了成千上万个信息源和各种各样的信息服务,而且信息源和服务种类、数量还在不断、快速地增长。对这些信息源和服务,由于时间、精力和财力限制,不可能一一亲身尝试。上面提到的偶然发现和浏览两种方法虽然在某些场合下十分有效,但有时花费时间、效益比可能不会令人太满意,而使用搜索方法则可缩小查找范围,达到事半功倍的效果。
⑸搜索引擎 • 在信息社会,信息的有效和迅捷是成功的必要条件。为了使用户尽快得到自己所需要的信息,许多网站都提供了信息检索服务,国外称之为“搜索引擎”。 • 用户要进行检索,必须提供查询条件,查询条件要符合服务站点的检索规则。各站点的检索规则不尽相同。大致可分为按布尔条件检索和按内容检索两类。
比较流行的搜索引擎 • 国内的有: “北大天网”e.pku.edu.cn “新浪”WWW.SINA.COM.CN 雅虎中文 www.yahoo.com.cn 中国考网www.chinatest.com 搜狐www.sohoo.com.cn 网易搜索 www.yeah.net • 国外有: www.yahoo.comwww.lycos.com www.altavista.com www.infoseek.com www.excite.com www.webcrawler.com
4.网络检索系统 • 网络检索工具所采用的技术分三类: • 目录型搜索引擎 • 基于Robot的搜索引擎 • 元搜索引擎
目录型搜索引擎 • 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。信息大多面向网站。 • 目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:YAHOO, Open Directory,国内最具代表性的是搜狐分类目录。 • 这是互联网早期的搜索引擎形式,现在仍然占有重要地位。雅虎就是从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务…
基于Robot的搜索引擎 • 由大规模机器运行的程序按照某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,并由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。 • 服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,可能有很多无关信息,用户必须从结果中进行筛选。 • 这类搜索引擎的代表是:AltaVista, Excite, Infoseek, Inktomi, FAST, Lycos,,AlltheWeb, Ask Jeeves, Google; • 国内最具代表性的是:百度,天网,OpenFind。
元搜索引擎 • 这类搜索引擎没有自己的数据,它将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。 • 这类搜索引擎的代表是WebCrawler,在实际中应用的效果并不理想。
5.具体信息搜索步骤 (1)制定信息搜索策略 在Internet上进行信息搜索时,建议采取以下策略: ①首先确定提供相关信息的优秀信息源; ②检查信息源所提供的信息粒度是否适中,所提供的信息量是否合适。信息量太多,冗而杂,搜索不便,信息量太少,则搜索不到足够的信息; ③研究信息源所提供的搜索命令及搜索方法,制定搜索计划,然后开始进行搜索。 (2)确定信息源 确定信息源是很关键的一步。良好的开端是成功的一半。若起点没有找准,搜索结果可能会一无所获。
二. 检索意愿的表达 • 常用检索技术 • 用得多:布尔检索、词位检索 • 用得少:截词检索、限制检索 • 注:并不是每个检索系统都支持所有的检索技术。
1、布尔检索 • 布尔运算符:AND、OR、NOT 举例:A是计算机书籍的集合、 B是论文的集合, “计算机”AND“论文” 得到的结果是“计算机论文”的集合 逻辑“与” A C B 举例:A是计算机书籍的集合、 B是自动控制书籍的集合, “计算机”OR“自动控制” 得到的结果是“计算机”或“自动控制” 书籍的集合。 逻辑“或” A C B 举例:A是计算机书籍的集合, NOT“计算机” 得到的结果是非“计算机”书籍的集合 逻辑“非” A B C
举例: • 检索“打印机驱动程序” • 查询关键词:打印机、驱动程序 • 检索表达式:打印机 AND驱动程序 • 检索“微型计算机”方面的有关信息 • 查询关键词:微型计算机、微机 • 检索表达式:微型计算机OR微机 • 检索“笔记本”方面的有关信息 • 查询关键词:笔记本、电脑 • 检索表达式:笔记本 NOT电脑
布尔运算符优先级 • 布尔运算符优先级比较 • 有括号时:先括号内、后括号外; • 无无括时:NOT > AND > OR • 例:检索“唐宋诗歌”的有关信息。 • 关键词:唐、宋、诗歌; • 检索表达式: • (唐 OR 宋)AND诗歌; • 唐AND诗歌 OR宋AND诗歌; • 错误表达式: • 唐 OR 宋AND诗歌; • 结果:“梦回唐朝”、“唐王李世民”或“唐三彩”
2、词位检索 • 词位检索又称全文检索。它是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术。 • 这种检索技术增强了选词的灵活性,它采用位置逻辑符进行组配运算,可弥补布尔检索技术造成误检的不足。 • 在不同的检索系统中,词位检索算符的种类和表达形式在不同的检索系统中并不完全相同,但根本思路并没有什么大的区别,在使用时需要加以注意。
词序关系 词序不能颠倒 词序可以颠倒 W nW N nN 关键词间插入 1个空格或标点符号 n(n=0,1,2,3…)个词 不能插入词 n(n=0,1,2,3…)个词 例子 Nature(W) GAS Laser(1W) Printer Wastewater(N) Treatment Wastewater(4N) Treatment 效果 Nature GAS 和 Nature-GAS 命中 Laser Printer和 Laser Color Printer和 Laser And Printer命中 Wastewater Treatment 和 Treatment Wastewater 命中 Wastewater and air pollution Treatment和Treatment Wastewater 命中 词位检索举例说明
3、截词检索 • 截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。 • 尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。 • 在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。 • 截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。
后截词(?) • 后截词是指检索结果中单词的前面几个字符与关键字中截词符前面的字符相一致的检索。 • 具体包括: (1)有限后截词。主要用于词的单、复数,动词的词尾变化等。 如用book?可检索出有book或books词的记录;acid??可检索出含有acid,acidic 和acids的记录(在词中用一个“?”可表示0个或1个字符)。 (2)无限后截词。主要用于同根词。如用solub?可检索出含有solubilize,solubilization,soluble等同根词的记录(在词根后加一个“?”,表示无限截词符号)。
中截词(?) • 中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。 • 在词中使用“?”替代不同的字母。 • 如organi?ation可检索出: organisation和 organization的记录 • 使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。
三、常用搜索引擎简介 • 天网中英文搜索引擎 • YAHOO搜索引擎
1. 天网搜索引擎使用介绍 • 启动方法 • 启动IE浏览器; • 在地址栏输入:http://e.pku.edu.cn/
检索网页使用方法 • 在检索框内输入选定的布尔表达式,如“英语学习”。 • 选择:
搜索文件使用方法 • 在检索框内输入选定的布尔表达式,如:“四六级” • 选择:
示意图 • 使用文件传输软件将选中的文件下载到本地计算机。选择欲下载的文件: • 找到自己想要的文件,直接单击鼠标右键,复制该文件的下载地址,目的为下面使用FTP软件作准备;如下图所示:
2. Yahoo使用方法介绍 • Yahoo 是Internet引擎的“元老”,是WWW上最流行的搜索工具。Yahoo是有斯坦福大学的两位博士研究生David Filo和Jerry Yang(杨致远)于1994年4月创建的。 • Yahoo由65000个数据库组成,HTML文献和其他Internet资源共20多万个条目。Yahoo有三种信息查询方式: • 归类信息方式:如最新消息、当前热点信息等; • 专题浏览方式:将所有普通信息分为十二大类:艺术、商业和经济、计算机和互联网、教育、娱乐、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。每一大类又分多个小类。可用鼠标点击链接词进入相关专题,非常方便。 • 关键词检索方式:这是最快速、方便的检索方式,只需在Yahoo主页的搜索框内键入要查找的信息主题词,然后点击Search按钮即可查找列出结果。
启动方法 • 启动IE浏览器; • 在地址栏输入:http://cn.yahoo.com/
目录检索方法示例 • 检索:西安交通大学图书馆网页,可以在图11-11中点击“参考资料”大类中的“图书馆”小类。
(续一) • 弹出浏览网站分类列表,点击“大学图书馆” 。
(续二) • 在大学图书馆的列表中点击交大图书馆的超级链接,即可进入交大图书馆主页。
(续三) • “+”的使用 • 目的:缩小检索范围 ,相当于 AND • 例如,“中国爱滋病+调查” • “-”的使用 • 目的:缩小检索范围,要求某些特定的词不出现在检索结果中 • 例如,“爱滋病–中国”,不包括中国的爱滋病 • 关键词用引号括起来的使用 • 目的:强调关键词从语法上不可分割 • 例如,“中国爱滋病调查”
四、中国期刊网使用介绍 • 中国期刊网是中国知识基础设施工程(CNKI)的一个重要组成部分,于1999年6月正式启动。主要的数据库有:中国期刊全文数据库、中国优秀博硕士论文全文库。 • 使用要求:用户必须先购买账号与密码,才能进入使用。对于没有相应账号与密码的用户,可以浏览免费信息,如文献摘要等内容,但不能浏览或下载文献全文。
启动 • 在IE地址栏输入:http://www.cnki.net/index.htm • 下载并安装阅读器:
登录系统 密码:xjtu
检索操作 • 输入检索关键字,如“克隆”,并选择检索范围,单击“检索”按钮,即可得到检索结果。
五、信息发布方法 (1) 网络信息发布的优势 • 参与客户群体众多。面向全球网络用户 • 传播优势。全天24小时不间断地展播 (2) 完成发布的步骤 • 申请存放信息的空间(http://go.nease.net/) • 整理准备发布的信息 • 通过软件工具制作发布页面 • 将制作好的页面传送到已经申请的空间 • 将自己的页面链接到有关搜索引擎上,供互联网用户查阅
(续) (3)示例 • 申请到免费空间,如:9th_view • 其URL为:http://9th_view.go.nease.net • 刚开始内容为空,仅有提示信息 • 其文件只有一个:index.htm • 整理自己欲发布的内容,入口文件名为:index.htm
(续) • 打开FTP软件,如FlashFXP,登录到:ftp.go.nease.net,使用方法参考前面介绍。 用户名: 9th_view 密码: fmmu85611 • 删除原来的index.htm及其它文件 • 上传新文件 • 通过IE浏览 http://9th_view.go.nease.net