320 likes | 431 Views
第七章 计算机信息检索. 计算机文献检索是随着计算机的出现而发展起来的。计算机检索经历了脱机检索、联机检索、光盘检索及网络信息检索等阶段。计算机检索以其检索效率高、检索效果好而在文献信息检索中得到了广泛的使用。 重点掌握:计算机检索的基本原理、数据库的定义、类型和结构;计算机检索的基本步骤与方法。. 本章主要内容. 第一 节 计算机检索概述 第二节 计算机检索原理 第三节 计算机检索技术 第四节 计算机检索步骤. 第一节 计算机检索概述. 计算机信息检索的特点 计算机信息检索的定义 计算机信息检索系统的类型 计算机信息检索系统的构成
E N D
第七章 计算机信息检索 • 计算机文献检索是随着计算机的出现而发展起来的。计算机检索经历了脱机检索、联机检索、光盘检索及网络信息检索等阶段。计算机检索以其检索效率高、检索效果好而在文献信息检索中得到了广泛的使用。 • 重点掌握:计算机检索的基本原理、数据库的定义、类型和结构;计算机检索的基本步骤与方法。
本章主要内容 第一 节 计算机检索概述 第二节 计算机检索原理 第三节 计算机检索技术 第四节 计算机检索步骤
第一节 计算机检索概述 • 计算机信息检索的特点 • 计算机信息检索的定义 • 计算机信息检索系统的类型 • 计算机信息检索系统的构成 • 数据库
计算机检索的特点 • 信息量大 • 信息及时 • 检索功能强 • 检索效率高
计算机信息检索的定义 • 简称机检 • 狭义上是指人们根据特定的情报需求,利用计算机从相关的机读数据库中识别并获取所需情报信息的过程。 • 广义上包括信息存储和信息检索两个方面,即数据库的建立与利用两个方面。
项目 手检 机检 总体特征 手翻、眼看、大脑判断 策略、查寻、机器匹配 标引及索引特点 检索点较少 检索点较多 检索时间 较慢 较快 检索要求 专业知识、外语知识、 专业知识、外语知识、机检 检索工具知识 系统知识 查全查准率 查准率较高 查全率较高 综合效率 较低 较高 手检与机检的比较
计算机信息检索系统的类型 • 文献信息检索经历了手工检索、机械检索、计算机检索 三个阶段。 • 计算机用于信息检索的研究始于20世纪50年代初。 • 从50年代开始,美国最先使用计算机进行信息检索并解 决了信息存贮和检索速度等问题。 • 60年代中期,计算机检索逐步实用化,利用单台计算机 回溯检索和新文献的定题检索,提供脱机检索服务。 • 70年代初,计算机检索进入联机检索阶段。 • 80年代以后,计算机检索进入国际联机信息检索阶段。 • 80年代末、90年代初,计算机检索发展成计算机网络信 息检索。同时,光盘诞生了进入光盘检索阶段。 • 90年后,进入网络检索阶段
计算机信息检索系统的构成 • 计算机硬件部分: • 主机:由控制器、运算器、存贮器等组成。 • 外围设备:终端机、打印机、键盘、磁盘、光盘、驱动器、通信设备等。 • 计算机软件:包括系统软件和应用(检索)软件。 • 数据库
数据库类型(按内容分型) • 书目数据库(如图书馆书目数据库) • 数值数据库(如人口统计数据库) • 事实数据库(科研机构数据库) • 全文数据库中国学术期刊全文数据库、中文科技期刊全文数据库等 • 软件数据库
数据库 • 数据库的定义美国著名信息检索专家Martha,E.Williams给 数据库 的定义是“包含书目及与文献有关的数据的机读记录的 有组织的集合。” 按内容性质分: • 书目型数据库(Bibliographic Database) • 如:国外三大农业数据库、馆藏书目数据库 • 全文型数据库(Full Text Database) • 如:中国学术期刊全文数据库、中文科技期刊全文数据库等。 • 数值型数据库(Numeric Database) • 存贮有科学数据,统计资料等数据。 • 事实型数据库(Fact Database) • 存贮有企业名录、百科全书、人名录等有利用价值的信息。 • 超文本型数据库(Hypertext Database)
数据库的结构 字段(Field)、记录( Record)和文档(File)
字段代码 字段名 表示方法 TI Title apple? in ti AB Abstract machine in ab DE Descriptors building in de AU Author au=liu BN ISBN bn=0-5635-0144-4 CC CAL Classification(分类号) cc=921 CD Conference Date cd=19960501 CL Conference Location(会址) cl=hangzhou CT Conference Title ct=robotics and au tomation CY Conference Year cy=1996 DT Document Type dt=book LA Language la=english PY Publication Year py>=1990 SN ISSN sn=1060=9857 SO Source Publication so=power
第二节 计算机检索的基本原理 计算机信息检索是利用计算机对信息进行存储与检索的过程,即数据库的建立与利用。 示意图 • 数据库的建立:按照既定的建库方针、目的、标准等从信息源中选择所需文献,对需录入的文献进行加工,也就是对文献的外表特征和内容特征进行分析和标引,形成文献特征的标识,把这些标识输入计算机,计算机再按事先设计好的规则自动把这些标识排序形成多种索引,建成数据库,为信息检索提供有规可循的检索途径。 • 数据库的利用:计算机信息存储的逆过程。将课题的主题概念按系统词表进行规范化处理,转换成系统语言,形成检索提问特征标识,根据需要使用布尔逻辑运算符制定检索策略,将检索提问式输入计算机,在数据库中查找所需信息。
打开数据库 另选数据库 计 算 机 文 献 信 息 数 据 库 的 检 索 原 理 示 意 图 输入检索提问 (检索式) 重新输入检索标识 在索引词典文档中比较和匹配 结果不匹配 从记录号倒排文档中调取记录号集合 篇数不合要求 记录号集合间的逻辑运算 重新调整检索策略 顺排文档中调取记录 输出命中记录 记录内容不合要求 结束检索
1、布尔逻辑检索功能 2、词间位置检索功能 3、截词检索功能 4、字段限定检索功能 第三节 计算机检索技术
布尔逻辑检索功能:用布尔逻辑算符来组配检索词以确定文献的命中与否。其算符的相互匹配方式一共有8种。布尔逻辑检索功能:用布尔逻辑算符来组配检索词以确定文献的命中与否。其算符的相互匹配方式一共有8种。 逻辑与(逻辑乘) 逻辑或 异或关系 “逻辑非”的“逻辑或”关系 “逻辑或”的“逻辑非” 逻辑非 被标引在该词下的
主要 是 三 种
简例:逻辑运算 AND 计算机在图书馆中的应用 计算机 图书馆
简例:逻辑运算 OR • 微量元素与克山病的关系 A C B A or B or C
简例:逻辑运算 NOT 查玉米方面的文献,但除甜玉米方面的文献 A NOT B A:玉米 B:甜玉米
词间位置检索功能 文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。
词间位置检索技术就是利用一些特定的位 置算符来表达检索词之间的位置关系,并 且可以不用叙词表而直接使用自由词进 行检索的方法。有的书上还把这种检索称 为原文检索。这种检索在利用TI和AB途径 检索时,对检索质量影响很大。
例:检索“小麦中氨基酸的测定” (determination of amino acids in wheat) 检索式:determination with amino acids with wheat 词间位置算符在不同系统中的使用方法不同: L在Dialog 系统中主要位置算符及其使用方法 L在SPIRS系统中,位置算符只使用两个: with 、near 那么,位置算符的应用,能缩小检索范围 提高查准率。
1.W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。 例: intelligent (W) robot? (Ei Compendex Plus) Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例: intelligent w1 robot* (OCLC FirstSearch) 2. N - Near N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent NEAR robot* ( Ei CPX Web) Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。 例: intelligent N1 robot* (OCLC FirstSearch ) 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例:intelligent adj robot* (Elsevier Science SDOS)
截词检索功能 截词运算符号有两个:“?、*” L其在不同系统中表示的含义不同。见书111 L在SPIRS系统中?为有限截断、*为无限截断; L在中刊库中只有?表示无限截断。 例:1、teen* teen,teens,teenage, teenager等 。 2、teen??? Teen, teens,teenage 在词尾加?号,以?号的个数表示词后最多可跟字母的个数
L截词方式有很多,按截词位置可以分为: L前截断(后方一直检索) ?Chemistry chemistry、biochemistry、 electrochemistry physicochemistry(物理化学)等。 注:在SPIRS系统和中刊库中无 L后截断 (前方一直检索) chem * chemical(化学制品) chemism(化学机理)、 chemomorphosis(化学诱变)、 chemosynthesis(化学合成)等。 L中间截断 :wom?n 分别检出了 woman,women两词 fib?board 分别检出了 fiberboard,,fibreboard两词。
L截词检索在中文数据库中截的是词意. 例:西北? 分别检出了:西北农林科技大学学报、西北园艺、 西北纺织学院学报等。 L在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致. 例“金属” metal* metal 、metals、metaled、metalist等。 L利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大. “西北农林?”就比“西北?”效果好
字段限定检索功能 将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有: in、=、<、>、≤、≥ 例: English in la ; py≥1992 总结:在一个复杂的检索式中,不仅可以有多个运算符, 也可以使用括号来指定运算的优先顺序、以及体 现概念的完整性。 例3:查“玉米方面的英文”文献 (maize or zea-mays or corn)in de and(English in la)
l所以,计算机检索就是使用这些检索技术来实现文献情报的有无、多少、异同的比较,以达到检索的目的,在结合使用这些方法的时,一定要注意,每一个概念表达的完整性,注重括号的使用。 l所以,计算机检索就是使用这些检索技术来实现文献情报的有无、多少、异同的比较,以达到检索的目的,在结合使用这些方法的时,一定要注意,每一个概念表达的完整性,注重括号的使用。
第四节 计算机检索步骤 • 分析课题确定主题概念 • 选择检索方式和数据库 • 确定检索途径 • 编制检索策略(检索式)1.布尔逻辑运算符(and,or,not)2.位置算符(with,near,pre)3.字段限定符(in,=)4.截词算符(*,?) • 检索策略的反馈调整1.检索结果太多,查准率较低时2.检索结果太少,查全率较低时 • 检索结果的输出