460 likes | 588 Views
计算机信息检索知识讲座 图书馆参考咨询部 闫江 Email:yanjiang@dhu.edu.cn Tel:67792226. 主要内容: 信息检索的相关知识; 图书馆主页资源介绍; 常用的著名搜索引擎简介。. 一、相关概念 信息: 一般指数据、消息中包含的意义。它是物质的一种具有普遍性的关系属性,是物质存在方式及其运动规律、特点的外在表现。 特点: ( 1 ) 时效性 ( 2 ) 传递性:信息借助于一定的物质载体进行传递,其 过程由 6 个部分组成:
E N D
计算机信息检索知识讲座 图书馆参考咨询部 闫江 Email:yanjiang@dhu.edu.cn Tel:67792226
主要内容: 信息检索的相关知识; 图书馆主页资源介绍; 常用的著名搜索引擎简介。
一、相关概念 信息:一般指数据、消息中包含的意义。它是物质的一种具有普遍性的关系属性,是物质存在方式及其运动规律、特点的外在表现。 特点: (1) 时效性 (2) 传递性:信息借助于一定的物质载体进行传递,其 过程由6个部分组成: 信源->编码->信息->信息传递渠道(载体)->译码->信宿 (3) 可扩散性 (4) 可扩充性 (5) 可替代性 (6) 共享性
知识:人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。知识:人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。 • 情报:广义上是指人们以各种方式传递与交流的具有一定目的与时效性的信息,可以分为知识性和非知识性两大部份;狭义的情报则专指知识性情报。 • 关系:知识来源于信息,理性化、优化和系统化了的信息;情报是解决特定问题的知识和智慧,是激活的那部分知识;文献是它们的载体。
二、文献信息检索的基本知识 • 1.文献:以文字、图形、符号、声频、视频等手段记录和传播知识或信息的载体。 • 2.文献的级别与分类 • 按出版类型分 • 按加工层次分 • 按载体形式分 • 按相对利用率划分 • 依文献获取的难易程度划分
3.文献的特征 (1)外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。 (2)内容特征:分类号、主题词、关键词等
4. 检索语言 (1) 描述文献外表特征的检索语言 (2) 描述文献内容特征的检索语言 分类语言 主题语言 a . 标题词语言 b .关键词语言 c . 叙词语言
例:查找“艾滋病的药物疗法”方面的文献。分类语言:R512.910.5 (按分类体系来查找)主题词语言:获得性免疫缺陷综合征/药物疗法 (全面、准确,可一步到位)关键词语言:AIDS、艾滋病、爱滋病、药名等 (适于初学者使用,但易漏检)
5. 信息检索的指令语言 目前大部分文献检索系统使用的指令语言有: (1)菜单式 (2)指令式 (3)混合式
6. 检索工具 (1) 目录 (2) 题录 (3) 文摘
7. 信息检索原理及作用 (1)原理:检索者将检索提问标识与存储在检索工具或检索系统中的文献特征标识进行比较,相一致的则从检索工具或检索系统中输出。 a.信息检索:将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程 。 b.计算机信息检索 :在人和计算机的共同作用下去完成信息存取操作,从机器存储的大量数据中自动分拣出用户所需要的部分。
计算机信息检索基本原理 匹配运算 用户提问 数据库 命中信息 并于终端 输出结果
(2)作用: a.继承和借鉴前人的成果,避免重复研究;b.节省研究人员查找文献的时间;c.协助决策者做出正确的决策;d.继续教育——“授人以渔”,一套科学地进行知识更新和积累的治学方法;
三、信息检索的方法和程序: (一)检索方法 • 指在分析信息需求实质的基础上,确定检索工具、检索途径与检索用词,并明确各词之间的逻辑关系。在检索过程中具体的步骤如下:
分析研究课题 分析研究课题的主题内容、所属学科,然后分析出主题概念、提取关键词和分子式、号码等作为检索词,再确定课题所需查找文献的时间范围、国家范围和文献类型范围。
关键词的抽取 在分析了课题后,可以进行关键词的抽取,滤除一些虚词、禁用词后,将剩余的词作为关键词。 制定关键词时还须考虑同义词、不同的拼写方法、单复数形式、常用缩写词语和其完整词语,即同一概念的检索词的扩展 。
选择检索工具(数据库) 确定和学科专业有关的、以及和所查文献类型有关的数据库。
一些常用的国内外科技综合类数据库 中国期刊网 中国科技期刊数据库 万方数据检索系统 中华人民共和国国家知识产权局 oclc firstsearch 国际联机检索系统 ebscohost 全文数据库 NTIS 美国政府研究报告文摘和通报 Ei COMPENDEX web 工程索引 http://www.engineeringvillage2.org.cn/ SCI 科学引文索引 ISTP 科学技术会议索引 Derwent Innovations Index 世界专利索引 INSPEC 英国科学文摘 Cambridge Scientific Abstracts剑桥科学文摘 STARDARDS & SPECIFICATION 美国标准和规范 http://library.suda.edu.cn/sjk/qtsjk/patents.htm中外文免费专利检索 http://library.suda.edu.cn/sjk/qtsjk/mfqw.htm国外免费全文网站
构建检索式 根据课题分析的结果,将检索词用布尔逻辑、及数据库系统使用的检索算符组成检索表达式。
(二)检索策略构成和调整方法 检索策略的制定过程可以简单地理解为检索表达式的形成过程。 (1) 布尔逻辑算符 规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。布尔逻辑算符包括逻辑“与(AND)”、 “或(OR)”和“非(NOT)”。
A. 与(AND)运算符 也可用“*”代替,组配用来表示不同检索主题概念之间的相交。其含义是检出的记录必须同时含有所有的检索词。AND算符的基本作用是缩小检索范围,提高检索结果的查准率。在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。
例如:以提问式“communication AND satellite” 检索为例: 图2逻辑“与”示意图 这个实例的示意图,图中的阴影部分反映了“communication”和“satellite”两词间使用AND算符后的运算结果。
B.或(OR)运算符 也可用“+”代替,表示主题概念之间的同义、近义、相关或多个并列的检索概念。 其含义是,检出的记录中,至少含有两个检索词中的一个。OR算符的基本作用是扩大检索范围,OR运算符还有一个去重的功能。另外,在使用截词方法检索具有相同词干的检索词或顺序的范围检索(PY=1989:1992 相当于PY=(1989 or 1990 or 1991 or 1992))或使用多个字段限制时(wildness/ti,de,id) ,这些词之间也自动地隐含了逻辑“或”的关系。
A B 图1逻辑“或”示意图 用A、B分别表示两个主题概念,那么A OR B表示用该式子检出的文献中至少含有其中的一个检索项,即或A或B,或A、B同时存在的文献,OR逻辑关系运算对所检的主题概念起到了概念的外伸作用。
C. 非(NOT)运算符 也可用“-”代替,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆,NOT算符是排除含有某些词的记录的,A NOT B检索出的文献中包含A的主题概念,而不含B主题概念。NOT算符的基本作用是缩小检索范围,提高检索结果的查准率。 例如:检索“ PATENT not GERMAN” ,检索结果示意如下: 图3逻辑“非”示意图
(2) 优先处理算符“( )” 逻辑算符OR和AND的使用方法,如果归纳成一个模式,比如有 A、B、C、D四个检索词(其中A和B,C和D分别为同义概念),检索提问式为: (A OR B)AND (C OR D) 即,同一组检索提问既含有OR算符,又含有AND算符,此时须使用优先处理算符 “( )”,将OR算符前后的词放入括号中,计算机将优先运算括号内的算符。
(3) 位置算符 位置算符又称邻接算符(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,比如,以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。
以AND运算符查得的记录中,尽管同时含有所希望的检索词,但AND算符并不限制两个检索词的位置和出现顺序。以 “communication AND satellite”这个策略为例,命中的文献中可能既含有“communication satellite”,又含有 “satellite communication”; 也可能既含有 “communication devices for satellite”,又含有 “communication links without satellites”, 显然其中的有些记录与课题要求毫无关系。位置算符可以用于改进AND运算符这种不足之处,因此,它们可以看成是特殊功能的AND运算符。
常用的位置算符有N 或 near、 W 、Adj等。各个检索系统中的位置算符的表示方法有所不同。下面介绍的以Ei COMPENDEX数据库使用的位置算符为例。
算符 实 例 解 释 NEAR Bridge NEAR Piling 所检出的文献要同时含有这两个词,这两个词要彼此接近(间距不超过5个词),前后顺序不限。 W/n PigW/2 pine 检出的文献要同时含有这两个词,两个词的间距不能超过n个单词,前后顺序不限。 Adj Channel adj tunnel 检出的文献要同时含有这两个词,两个词相邻,位置一定
而对于EBSCO数据库: W算符表示在此算符两侧的检索词在命中时,必须按输入时的先后次序排列,不得颠倒顺序。两个检索词之间可以插入任何其它的词和字母(但可以有一个空格或一个符号连接号),相隔的词数用W加数字表示,即nW或W/n。可见,检索用户要想用一个固定的词组检索,也可采用(W)算符,如:thin(W)film等。N算符表示在此算符两侧的检索词在命中时,词序可以颠倒。检索词之间允许插入任何其它的词和字母,相隔的词数用N加数字表示。
(4)截词算符(?,*) • 此算符可看作是将某一部分相同的检索词用“或”算符连接后进行检索。 • 不同数据库有不同的截词符,如EI_Village2用?,而Web of knowledge平台用*。 • 基本作用是,减少输入步骤,简化检索程序,扩大检索范围,提高查全率,节省机时,降低费用。 • 一般可分为后截断、前截断、中间截断、混合截断四种。
后截断(开放式截断) • 后截断可保持词首部分的一致性。 • 如:computer? 或computer*,可实现:computer , computerised , computerized , computers …的检索
前截断 • 前截断可保持词尾部分的一致性。 • 如: ?computer ,可实现:microcomputer , minicomputer…的检索
中间截断(嵌入式截断) • 中间截断可实现对某词不同拼法的检索,嵌入字母数等于问号数,通常用在英美不同拼法。 • 如:computeri?ed ,可实现:computerised , computerized …的检索
混合截断 • 混合截断可以实现对不同词根、词首、及中间部分不一致的检索。 • 如:?computer? ,可实现:computer , computerized , computers , microcomputer , microcomputerized , minicomputer …的检索
限制式截断 (1)词干后只跟一个字母,用? ?表示,两问号间空一格。主要用于单、复数名词的检索。 例:DYE? ? 表示检索DYE、DYED、DYES。 (2)词干后至多跟与问号数相同的字母数,用??或???表示,问号间不用空格。 例:UNIVERS?? 表示最多跟2个字母,可检索UNIVERSE、UNIVERSAL等。 例:CAND??? 表示最多跟3个字母,可检索CANDY、CANDIES、CANDIED等。
(5) 字段限制(TI,AB,DE,ID) A. 基本字段限制 基本字段限制的用法是在需要指定字段(题目、叙词、识别词和文摘)的检索词后加上后缀运算符“/”和段码。 例如,检索策略“OPTICAL/TI AND FIBER/TI”的含义是指定在题目字段中查找含有 “optical” 和“fiber”两词的所有记录。字段段码可以多个连用,段码之间加“,”即可。例如,检索策略“FIB?/TI,DE”的含义是指定在题目和叙词字段中查找以 “fib”为词干的所有记录。
B. 辅助字段限制 辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。例如检索策略AU=“Robert, S.”的含义是在作者字段中查找含有“Robert, S.”的所有记录。 下面是其他常用的辅助字段限制及其实例: 指定著者单位字段 CS=SHANGHAI UNIVERSITY 指定刊物名称字段 JN=APPLIED MATHEMATICS 指定语言字段 LA=ENGLISH 指定文献类型字段 DT=JOURNAL
(6) 检索策略的调整 检索表达式输入检索系统后,输出的检索结果有时不一定能满足课题的要求,或者检出的篇数过多,而且不相关文献所占比例很大,或者检出的文献数量太少,有时甚至为零,这时就需要调整检索策略。
调整检索策略之前,首先要分析造成结果不理想的原因。对于输出篇数过多的情况,应分析是否可能是如下原因造成:调整检索策略之前,首先要分析造成结果不理想的原因。对于输出篇数过多的情况,应分析是否可能是如下原因造成: a .选用了多义性的检索词; b .截词截得过短; c.输入的检索词太少; d.应该使用“与(AND)”的使用了“或(OR)”; e.优先运算符“()”使用错误。
对于输出篇数过少的情况,应分析是否方式如下原因造成:对于输出篇数过少的情况,应分析是否方式如下原因造成: a. 检索词拼写错误; b. 遗漏重要的同义词或隐含概念; c.检索词过于冷僻具体; d. 没有使用截词算符; e. 位置算符和字段算符使用的过多; f. 使用过多的“AND”算符。
针对上述原因,如果是属于需要扩大检索范围,提高检索结果查全率的,调整策略的方法有: 针对上述原因,如果是属于需要扩大检索范围,提高检索结果查全率的,调整策略的方法有: a. 减少“与(AND)”算符,增加同义词或同族相关词用逻辑或(OR)将它们连接起来; b. 在词干相同的单词后使用截词符(?或*); c. 去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。
如果是属于缩小检索范围,提高检索结果查准率的,调整策略的方法有:如果是属于缩小检索范围,提高检索结果查准率的,调整策略的方法有: a. 减少同义词或同族相关词; b.增加限制概念,用逻辑与(AND)将它们连接 起来; c.使用字段限制; d.使用适当的位置算符; e.使用“非(NOT)”算符,排除无关概念。
推荐的检索策略 • 检索前研究您的主题. • 变化您所知道的检索策略. • 除非找到目标或学到新东西,否则不要局限在一种检索方中。 不推荐的检索策略 • 浏览主题目录 • 在大型数据库中使用简单关键字 • 跟随链接去那些大众口味或商业利益所推崇的网站