650 likes | 841 Views
数字信息资源检索与利用. 山东大学威海分校图书馆. 第二章 信息检索原理. 第一节 信息检索及系统 第二节 信息检索语言 第三节 数据库的构成与信息检索技术. 第一节 信息检索及系统. 一、信息检索 信息检索 (Information Retrieval) 是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信 息的过程。. 存储:是对信息进行著录、 标引、整序,编制检索工 具和建立检索系统的过程。. 存储. 信息检索. 检索:是指面向信息需求 而进行高度选择性的查找 过程。. 检索. 原始文献. 著录标引.
E N D
数字信息资源检索与利用 山东大学威海分校图书馆
第二章 信息检索原理 第一节 信息检索及系统 第二节 信息检索语言 第三节 数据库的构成与信息检索技术
第一节 信息检索及系统 一、信息检索 信息检索(Information Retrieval) 是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信 息的过程。 存储:是对信息进行著录、 标引、整序,编制检索工 具和建立检索系统的过程。 存储 信息检索 检索:是指面向信息需求 而进行高度选择性的查找 过程。 检索
原始文献 著录标引 提 问 数据库 检 索 存 储 输 出 检 索
采访模块 编目模块 典藏模块 流通模块 期刊模块 系统模块 我校图书馆汇文文献信息服务系统 数据 数据 后台数据库 OPAC
二 信息检索的类型 (一)按检索内容划分 1 书目检索 是以书目文献为检索内容的信息检索。提供的一般为图书、期刊等的线索。 2数据检索 是以数据为检索内容的信息检索,要求从检索系统存储的大量原始调查数据和其它统计数据中查出所需的数字资料。
3、事实检索 是以具体事项为检索内容的信息检索,要求从检索系统存储的各种原始信息资源中查出专门的事实材料。 4、全文检索 即检索系统存储的是整篇文章或整本图书。 5、图像检索 即以图形、图像或图文信息为检索内容的信息检索。 6、多媒体检索 是以文字、图像、声音等多媒体信息为检索内容的信息检索。
(二)按信息检索手段划分 1、传统信息检索 就是手工信息检索,是利用各种印刷型检索工具来查找文献的一种方法。 2、现代信息检索 现代信息检索即计算机信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。
计算机 数据库 检索终端 通信网络 三 检索系统 系统构成:计算机、通信网络、检索终端、数据库组成。 核心 桥梁
四 检索系统的检索功能 检索功能是指检索系统在检索界面上提供给用户的基本功能。它与系统的检索技术是紧密结合的。比较通用的检索功能有浏览、索引、简单检索、复杂检索、自然然语言检索等。
(1)浏览 Browse 由系统提供一个树状结构的概念等级体系,分层次按其属性及相互从属关系对知识进行并行或树状排列,逐级展开到最小知识单元。 (2)索引 Index 索引是一个线性表单,可以将任何一个标引字段中的概念按字母顺序不分级地线性排列起来。索引的种类很多,如人名索引、出版物索引、地名索引、主题索引、机构索引、分子式索引等。
(3)简单检索 Simple Search、Basic Search、Quick Search 即为用户提供一个简单的检索界面,帮助非专业或初入门用户方便地 提交检索式。 (4)复杂检索 Advanced Search、 Guided Search 、Expert Search 为专业用户、资深用户提供比较复杂的检索界面,可以构造比较细致的检索式,帮助用户进行精确检索。
(5)自然语言检索 Natural Language Search、 Intelligent Search 直接采用自然语言中的字、词甚至整个句子作为提问式进行检索的方法。 如: 什么是厄尔尼诺现象? 大西洋和太平洋的飓风
(6)命令检索 此又称指令检索,由检索用户自行输入各种检索命令进行检索。 例如:DIALOG联机检索系统 B 34,434 说明:B为begin的缩写,此指令意即打开34,434号数据库文档。 S computer/TI 说明:S为select的缩写,此指令意即在题名检索字段中检索 “computer”一词。
(7)二次检索 在检索结果内进一步检索,使结果更精炼、准确。
五 检索系统的评价 (1)检索功能:主要指系统提供给用户的各种检索途径和检索入口,可供选择的越多,相对用户就越方便。 (2)检索技术:即系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需的信息。 (3)检索结果:即用户是否得到了内容全面、下载和使用均比较方便的检索结果。 (4)用户服务:主要是指在检索功能之外,系统还为用户提供了哪些服务。
第二节 信息检索语言 一、检索语言的含义及作用 二、检索语言的类型
一、检索语言的含义及作用 1 检索语言的概念 检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。
2检索语言的工作原理 存储:检索系统对文献内容进行分析,概括分析出 若干能代表文献内容的语词,并赋予一定的标识,如题名、作者、主题词等,作为存储与检索的依据,然后纳入到数据库中。 检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库中匹配具有同样语词和标识的文献,找到自己所需的信息。
3 检索语言的作用 • 保证不同标引人员表征文献信息的一致性。 • 使内容相同及相关的文献集中化。 • 保证检索提问与文献信息标引的一致性。 • 保证检索者按不同需求检索文献信息时都能获得较高 的查全率和查准率。
举例 1 篇名:跨国并购对企业的影响 关键词:跨国并购,财务风险,财务整合 摘要:阐述了当前跨国并购的特征以及对企业而言的机遇和挑战, 分析了跨国并购所带来的财务问题,对跨国并购对企业的影响进行了探讨。 中图分类号:F271 作者:房玲 刊名:科技情报开发与经济 年:2007 期:14 作者单位:太原供电分公司保护自动化所
举例 2 文献1:A model of multimedia information retrieval 文献2:The Information retrievalin chemistry WWW server 文献3: ERIC resources 在对信息存储过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为: 文献1:篇名:A model of multimedia information retrieval 主题: information retrieval, multimedia computer application 文献2:篇名:The Information retrievalin chemistry WWW server 主题: chemistry,educational materials 文献3: 篇名: ERIC resources 主题: educational materials
二 检索语言的类型 题名 责任者 关键词 引文 自然语言 检索语言的类型 分类语言 人工语言 主题语言 代码语言
1 自然语言(natural language)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词(uncontrolled term)。 (1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。 (2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。 (3)全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。 (4)引文(quotation):将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。
自然语言的优缺点 优点 • 新颖性强 • 检索方便 • 标引准确度高 缺点 • 词汇量太大,给词汇的存储、加工和检索带来许多操作性方面 的困难。 • 当文献的主题很明白清楚地在标题或主题词中表达出来时,检 索才会较成功,反之则失效。 • 词汇具有模糊性,另外多义、近义、同义现象较多,给标引和检索带来困难。
2 人工语言 • 由人工创制的,采用规范词,用来专指某个概念或与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。 • 分类检索语言 • 主题检索语言 • 代码检索语言
(1)分类检索语言 按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。 中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类表
《中图法》分类语言举例 《中图法》按学科体系 ,划分为二十二个大类,每个大类都用一个英文字母表示。如下所示: A 马克思主义、列宁主义、毛泽东思想、邓小平理论 B 哲学 宗教 C 社会科学总论 D 政治 法律 E 军事 F 经济 G 文化 科学 教育 体育 H 语言 文字 I 文学 J 艺术
《中图法》分类语言举例 K 历史 地理 N 自然科学总论 O 数理科学 化学 P 天文学 地球科学 Q 生物科学 R 医药 卫生 S 农业科学 T 工业技术 U 交通 运输 V 航空 航天 X 环境科学 劳动保护 Z 综合性图书
《中图法》分类语言举例 Q生物科学 Q1 普通生物学 Q2 细胞生物学 Q21 细胞的形成与演化 Q23 细胞遗传学 Q24 细胞形态学 Q25 细胞生理学 Q26 细胞生物化学 Q27 细胞生物物理学 Q3 遗传学 Q4 生理学 Q5 生物化学 ┇ TEXT TEXT
(2)主题检索语言:主题检索语言是以词语作为表达主题概念的标识,按字顺编排的检索语言。(2)主题检索语言:主题检索语言是以词语作为表达主题概念的标识,按字顺编排的检索语言。 标题词语言 是最早使用的一种主题语言。它以规范化的自然语义作为标识来表达文献涉及的主题概念,表达主题的词语称为标题。 单元词语言是从文献内容中抽选出来的最基本的词汇、将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位。 叙词语言是从自然语言中优选出来并经过规范化处理的名词术语。采用表示单元概念的规范化语词的组配对文献内容主题进行描述,也是目前使用最广泛的主题语言。
主题语言举例:下例为EBSCO出版公司Business Source中选定“建议主题语” (据2008年数据)
(3)代码检索语言 就事物的某一方面特征,用某种代码系统来加以标引和排列,目前主要应用于化学领域。例如。化合物的分子式索引系统、环状化合物的环系索引系统等。
3 人工语言与自然语言的关系 人工语言和自然语言并不是互相对立的,比较成熟的检索系统, 通常是两种检索语言并用,互为补充,以保证较高的检索效率。
数据库的构成 1 数据库的定义 至少由一种文档(file)组成,并能满足某一特定目的或某一特定数据处理系统需要的数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。
2 数据库的构成 顺排文档 文 档 倒排文档 记 录 记 录 记 录 字 段 字 段 字 段
2 数据库的构成 文档是书目数据库和文献检索系统中数据组成的基本形式,是由若干个逻辑记录构成的信息集合。从数据库的内部结构来看,通常一个数据库至少包括一个顺排文档和一个倒排文档。
2 数据库的构成 记录是数据库文档的基本单元,是对某一实体属性进行描述的结果。一个数据库可能包含几千条甚至几十万条记录。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。
2 数据库的构成 字段字段是构成记录的最小信息单元。 一条记录包含着若干个字段。例如原始文献的篇名、著者、文献出处、出版时间、文摘、主题词、语种等。数据库记录的著录项目(字段)往往比手工检索多得多,这就决定了计算机检索能够提供比手工检索更丰富的检索途径。
以中国期刊全文数据库为例: 【篇名】科技人员薪酬满意度研究 【英文篇名】 Empirical Research on the Impact Factors of Pay Satisfaction of the Scientific and Technological Personnel 【作者】 张俊琴; 来鹏; 【英文作者】 Zhang Junqin; et al(Southeast University; Nanjing 210096; China); 【作者单位】 东南大学经济管理学院; 南京信息工程大学数理学院; 【刊名】 河海大学学报(哲学社会科学版) , Journal of Hohai University(Philosophy and Social Sciences), 2008年 04期 【关键词】 薪酬; 满意度; 科技人员; 【英文关键词】 pay; satisfaction; scientific and technological personnel; decision-tree; 【摘要】 薪酬满意度是影响科技人员工作绩效的重要因素。笔者基于中国科协"科技人员收入差距调查研究及政策建议"课题组对江苏省科技人员的大范围调查数据,从薪酬的两个维度(经济性薪酬和非经济性薪酬)研究科技人员薪酬满意度的影响因素,并结合实证调研数据进行了深入分析,探讨提高薪酬满意度及工作绩效的政策建议。 【英文摘要】 Pay satisfaction is an important factor which has impact on the performance of scientific and technological personnel. Based on the questionnaire survey of the scientific and technological personnel in Jiangsu Province, this paper researches into the pay satisfaction from two dimensions: economic pay and non-economic pay. And by means of decision-tree method, this paper selects the important factors which play essential role in pay satisfaction of the scientific and technological personnel, and then makes a... 【基金】 中国科协软科学项目“科技人员收入差距调查研究及政策建议”(2006DCYJ09);; 国家自然科学基金项目“科技支撑和引领经济发展的内涵及机理研究”(70440010) 【DOI】 CNKI:SUN:HHZX.0.2008-04-018 全文:……………………………..
每一个字段都有自己特定的标识符,以Dialog数据库为例:每一个字段都有自己特定的标识符,以Dialog数据库为例: TI: 篇名字段(Title) AU=: 著者字段(Author) CS=: 著者所在单位字段(Corporate Source) SO=: 文献出处字段(Source),对于期刊文献包括期刊名称、卷、期、页等;对于会议文献包括会议名称、届次、时间、地点等 PY=: 出版年代字段(Publication Year) CO,SN=: 期刊代码(CODEN);国际连续出版物标准号(ISSN) LA=: 语种字段(Language)
DT=: 文献类型字段(Document Type)。 TC=: 处理码字段(Treatment Code),表示论文研究 的性质,A 表示应用,X 表示实验,T 表示理论,等等。 AB: 文摘字段(Abstract)。 DE: 叙词字段(Descriptor),主题词表中的词。 ID: 自由标引词字段(Identifier),非受控词表中的词,由标引人员根据文献内容确定。 CC=: 分类代码字段(Classification Code)。
3 信息检索技术 ① 布尔逻辑检索( Boolean logic ) 逻辑“与”的布尔运算符为“AND ”、“ and ”,有时也可用“ * ”表示。 A AND B 或者 A*B 例: 家用电器AND国产
逻辑“或”的布尔运算符为“OR ”、“ or ”,有时也可用“ + ”表示。 A OR B 或者 A+B 例: 汉城+首尔 计算机or 个人电脑
逻辑“非”的布尔运算符为“NOT ”、“ not ”、“ and not ”,有时也可用“ ─ ”符号表示 . A NOT B 或者 A-B 例: 液晶电视-TCL 东亚not 俄罗斯
检索实例: 检索关于欧洲金融方面的新闻 欧洲and金融and (新闻or报道) 检索能源但不涉及核能方面的文献 能源 NOT 核能 一般为 NOT 最先执行, AND 其次进行, OR 最后执行。 但是可以用括号改变他们之间的运算顺序。例如, (A OR D) AND B