1 / 72

文献检索(信息检索) 第三章 信息检索概述 第二节 信息检索基础知识

文献检索(信息检索) 第三章 信息检索概述 第二节 信息检索基础知识. G252.7/160=2. 一、信息检索的概念 ( 一 ) 信息检索的概念 信息检索有广义和狭义之分: 广义的信息检索 是指将信息按一定的方式组织和存储,根据信息用户的需求从信息集合中找出信息的过程和 技术 。其全称为: 信息存储和检索 。 存储 的过程是信息组织加工和记录的过程,即建立检索系统(编制检索工具)的过程- 输入 的过程; 检索 的过程是按一定的方法从检索系统(检索工具)中查出信息用户需要的特定信息的过程- 输出 的过程。 狭义的信息检索 是对信息用户而言,就是信息集合中找出所需的信息。.

edana
Download Presentation

文献检索(信息检索) 第三章 信息检索概述 第二节 信息检索基础知识

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文献检索(信息检索) 第三章 信息检索概述 第二节 信息检索基础知识 G252.7/160=2

  2. 一、信息检索的概念 (一)信息检索的概念 信息检索有广义和狭义之分: 广义的信息检索是指将信息按一定的方式组织和存储,根据信息用户的需求从信息集合中找出信息的过程和技术。其全称为:信息存储和检索。存储的过程是信息组织加工和记录的过程,即建立检索系统(编制检索工具)的过程-输入的过程;检索的过程是按一定的方法从检索系统(检索工具)中查出信息用户需要的特定信息的过程-输出的过程。 狭义的信息检索是对信息用户而言,就是信息集合中找出所需的信息。

  3. 二、信息检索的类型  (一)按存储和检索的内容划分  1.文献检索:以文献全文为检索对象的一种检索,从文献集合中检索出所需的、切题的文献的过程、方法和策略。凡是查找某一主题、学科时代、地区、著者等相关文献圴属此类。 2.事实检索:从文献中抽取的事项为检索内容的检索。亦即从存储有大量知识信息、事实信息和数据信息的检索工具和检索系统中获取某一事物的现状、结果、发生的时间、地点和过程的检索,如查找某产品的生产企业、性能、人物的基本情况、历史变迁等。

  4. 3.数据检索:从存储大量数据、图表的检索系统中获取数值型信息,检索结果是经过评估的各种数据,可直接应用于比较分析、定性或定量分析。3.数据检索:从存储大量数据、图表的检索系统中获取数值型信息,检索结果是经过评估的各种数据,可直接应用于比较分析、定性或定量分析。 4.多媒体检索:随着计算机和网络技术的发展而产生的新的检索类型,是利用特定的搜索引擎从存储有多媒体文件的检索系统中获取多媒体信息的一种检索方式。其检索结果是文字、图像、声频、视频等或静、或动的信息形式。    事实检索和数据检索是以从文献中提取出来的各种事实、数据为检索对象的一种确定性检索。

  5. (二)按检索手段划分 1.手工检索    手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval) 工具,早些时候有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。    以印刷文献为主要检索对象,以各类文摘、题录和目录性工具书为可利用的主要检索工具,以图书馆的参考咨询部为开展信息检索服务的中心机构。

  6. 2.计算机检索   计算机的信息检索主要经历了早期的脱机批处理,后来的联机实时检索、联机网络化和多元化信息检索,到目前的以因特网的搜索引擎为核心的网络化检索时期。  检索过程是在人与机器的合作、协同下完成的,它们经常用实时的、交互的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。 检索用户由专业检索人员向个人终端用户转移。

  7. 三、信息检索工具 (一)信息检索工具的概念    信息检索工具是用来报道、存储和查找的工具.也是借以鸟瞰科技发展历程以及学科进展状况的重要工具。由专业人士将文献的外表和内容特征转换成具有检索意义的标识,为信息检索者提供有章可循的途径。 检索系统由一定的检索设备和加工整理好并存储在相应的载体上的文献集合(如文献数据库)及其他必要设备共同构成的,具有存储和检索功能的信息服务设施。

  8. 检索系统和检索工具的区别 (1)检索工具常指纸质的书本或卡片,检索系统指多个子系统构成的,需借助专门机器进行检索的设施。 (2)检索工具结构简单,需要依靠人的智力和知识进行信息比较和选择;检索系统依靠机器语言来进行信息服务。 注:二者之间没有绝对的界线。

  9. 检索工具必备条件: (1)对所收录的文献的各种特征(包括外部特征和内容特征)有详细的描述;( 体现报道和存储功能) (2)每条记录有可供检索用的标识;(体现查找功能) (3)全部记录科学地组织成一个有机的整体;( 查找功能,使记录存放有序) (4)具有多种必要的检索手段。(查找功能,满足用户多角度查找文献)

  10. 知识的产生 记录 原始文献 文献整理 知识重组 知识浓缩 书目、目录 词典、名录 述评、专著 索引、文摘 指南、手册 教科书、论文丛书 新书通报 年鉴 百科全书 二次整理 研究、实验 书目之书目 实践、综合 词典的指南 文献指南 知识的创新 传 播 科技信息的利用 检索工具在文献结构系统中的位置

  11. (二)常用检索工具的类型 1.目录,也称书目,以整本图书、期刊作为报道单元,收录文献的题名、著者、出版者、收藏情况等外部特征信息,按类编排。亦就是对一批相关文献外表特征(文献名称、著者、文献出处等)的加以整理和分编,并按一定顺序组织起来形成的一种检索工具。根据编制目的和用途的不同,目录可分为国家目录、馆藏目录、联合目录、出版商目录等。

  12. 传统的卡片式目录

  13. 电子目录

  14. 2.题录,与目录基本相同,也是对文献外部特征(如文献题名、著者、文献出处等)的揭示和报道,只是内容上是以独立的单篇文献(如一篇文章或书中某一部分以至整个出版物)为著录单元。(广、快、新)2.题录,与目录基本相同,也是对文献外部特征(如文献题名、著者、文献出处等)的揭示和报道,只是内容上是以独立的单篇文献(如一篇文章或书中某一部分以至整个出版物)为著录单元。(广、快、新) • 题录著录格式如下: 记录号 著者姓名 题名 030301007 网络时代的管理创新/高维钫(北京邮电大学文法经济学院)//经济管理.——2002,13(6),53-55 原文出处 著者单位

  15. 著录对象不同 与目录区别 单位出版物 目录 题录 单篇文献

  16. 3.索引    将收录范围内的文献中的题名、主题、人名、地名等名词术语以及其他有关款目抽出,注明出处,并按一定的排检方式组织而成的一种检索系统。是以文献中的“知识单元”为单位,揭示各种文献外部特征或内容特征的系统化记载工具。    索引揭示文献内容比目录更为深入和细致,比目录应用更广泛。

  17. 4.文摘 也提要、摘要,文摘不仅描述文献的外表特征,而且还揭示文献的内容特征,是带有文摘内容的、扩展了的题录 。可以获取文献的核心内容观点,是一种经济的文献形式。 • 印刷版本文摘著录格式如下: 题名 文种 文摘号 文献类型 9807471 OODB中的模式更改框架[刊,中]/郭 江//计算机应用与软件.——1997,14(3).——23-34 模式演化是面向对象系统中的一个关键问题。由于OODB(面向对象数据库系统)的应用……。参4 著者姓名 原始文献的出处 摘要 参考文献数目

  18. 电子版本文摘著录格式如下:

  19. 文摘的作用 (1)通报最新的科学文献; (2)深入提示文献内容,吸引读者去阅读原文; (3)节约阅读时间; (4)确定原文内容与课题的相关程度; (5)帮助用户克服语言障碍 ; (6)有助于提高标引质量; (7)便于读者进行回溯性检索; (8)是撰写综述、述评、研究科技发展史的重要素材。

  20. 5.参考工具书 是汇集某一方面的知识和资料,按某种体例编排的专供查考和检索特定知识或信息,而不需要系统阅读的工具性著作,如字、词(辞)典,百科全书、年鉴、手册、名录、类书、政书、表谱、图录等 (1)字、词典:字典解释字形、读音、含义和用法;词典解释词语的概念、意义及用法,可分语文词典、专科词典和综合词典三大类。语文词典有《现代汉语词典》、《汉语大字典》、《汉语大词典》;专科词典有《经济大词典》、《数学词典》;综合性词典有《辞源》(1884年以前)和《辞海》(兼顾古今)

  21. (2)百科全书 是以条目的形式,全面、系统地概述各学科(人类一切门类)或某一学科领域知识,并按词典形式编排的工具书,有“工具书之王”之称。 百科全书可供一般阅读和学习使用,具有教育性;它有完善的目录、索引和参见系统,具有检索性;它的再版、补编等工作,保证其所含内容的新颖性。百科全书是人类最有用的知识的系统概述。 世界三大著名的英语百科全书《不列颠百科全书》、《美国百科全书》、《科里尔百科全书》

  22. (3)年鉴 是按年度连续出版的工具书,是对一年内的重大事件、最新成果和统计数据等汇集。 年鉴的内容和数据主要取材于政府公报、相关文件、部门统计、重要报刊的报道以及专业撰述等,具有专业性、权威性、资料性、时效性和新颖性。    年鉴可分为综合性和专业性两大类,前者如《中国百科年鉴》,后者如《中国经济年鉴》、《中国法律年鉴》等。

  23. (4)手册 它汇集某一主题或学科领域的各种基础知识和基本数据资料,通常针对当前实践所需,供随时翻检查阅之用,是一种便捷的查检参考工具书。故又称“便览”,也常冠以“概览”、“大全”、“要览”、“指南”、“必备”等名称。 (5)名录 是一种系统编排的个人或机构名单,用以指示地址及相关资料,是人们进行经济、文化、学术交流的参考工具书。有机构名录和人名录。

  24. (6)类书 根据一定的意图,把群书中可供参考的文献资料辑录出来,分类编排(也有分韵编排)的工具书,类似于百科全书式的资料汇编。类书主要用于查找辞藻典故和诗词文句出处,查考史实和事物掌故,亦可用于辑佚和校勘古籍。 百科全书是以条目形式,对各种知识作概述性的介绍,着重反映科学文化的最新成就;类书是文献资料的分类辑存,以继承传统文化为主要目的。 三国曹丕《皇览》、虞世南《北堂书钞》、解缙《永乐大典》(22877卷)、陈梦雷《古今图书集成》(1万卷)

  25. (7)政书 辑集历代或某一朝代有关典章制度方面的文献资料,分类编排与叙述。    唐杜佑《通典》、宋马端临《文献通考》、南宋郑樵《通志》,清《续通典》、《续通志》、《续文献通考》,《清朝通典》、《清朝通志》、《清朝文献通考》,刘锦藻《清朝续文献通考》,以上十部大书,著名的“”十通。 还有一类断代型政书,记某一朝代或某一时期典章制度,称“会要”,如《西汉会要》等。

  26. (8)表谱 用编年、表格等形式来揭示时间概念或谱列历史事实的工具书。特点是眉目清晰,简要易查。 纪年表:不同的纪年系列进行对照。如《中国历史纪年表》 历表:将不同历法的年月日进行对照。 大事年表:按年月编录大事,又称大事记。 专门性表谱:为某学科、某专题、某人物编撰的表谱。如查官制《历代职官表》,查地理沿革《历代地理沿革表》,查人物《历代人物年里碑传综表》,个人年谱、年表等。

  27. (9)图录 以图像为主体,辅以文字说明的工具书,又称图谱。 地图:《中国历史地图集》 历史地图:《中国古代史参考图录》 文物图录:《中国历代货币》、《中国古代服饰研究》、《中国版刻图录》 人物图录:《明清人物肖像画选》、《中国历代名人图鉴》、《中国历代人物图像集》 以及科技图录、艺术图录等

  28. 6.全文数据库 全文数据库是以原始文献为著录单元,文献中每个有意义的实词均可用作检索词,信息用户可得到文献的全文或其中的某些部分。全文数据为是近年来发展最快的检索工具,极受信息用户欢迎。 7.搜索引擎 以网页为著录单元,在Web中自动搜索信息(搜索网页上的单词和简短的特定的描述内容)并将其自动索引的Web服务器。为了搜集这些信息,网页搜索软件沿着Web的超链,搜索整个Web上的主页,将主页上的每个文字建立索引并返回集中管理的索引数据库,索引信息包括文档的Web地址、每个文档中单字出现的频率、位置等。

  29. 四、信息检索工具结构 (一)手工检索工具结构 一般由使用说明、目次表、正文、辅助索引、附录组成。(首次使用新检索工具,阅使用说明,并据所查的学科,利用目次表从分类途径查或利用索引中主题、著者等查) 1.使用说明:有称凡例、包括编制目的、收录范围、著录格式、代号说明、使用举例及注意事项等,是用户使用前必读内容。 2.目次表:检索工具的正文一般按分类组织编排,前面大多有详简不同的目次表,作为从分类查找文献的依据。

  30. 3.正文:检索工具记录的不是文献的全文,仅著录文献的外部特征和内容特征,包括文献篇名、著者、出处或文摘等。3.正文:检索工具记录的不是文献的全文,仅著录文献的外部特征和内容特征,包括文献篇名、著者、出处或文摘等。 4.辅助索引:检索工具正文只提供单一线性检索方式,为了快、准、全地查找所需信息,检索工具都编有索引,提供从主题、著者、序号等多种途径检索所需信息。(掌握检索工具的实质就是熟悉各种辅助索引的使用方法) 5.附录:主要是使用该检索工具时必须参考的一些内容,如引用期刊一览表、文献来源名称缩写与全称的对照表、缩略语的解释以及收藏单位代码等。

  31. (二)计算机检索工具结构 一般由检索软件和数据库组成。 检索软件确定了该检索工具的检索方式,规定了检索系统的检索算符,不同的计算机检索工具采用不同的检索软件。 数据库主要由字段、记录、文档、帮助文件等组成。 1.字段:是数据库最基本的著录单元。如题名、著者、文摘、主题词、关键词字段等。每一个字段均有其标志符,其内容是字段值或属性值。

  32. 2.记录:多个字段组成记录。不同数据库中其记录的字段数多少不同。记录是按一定标准格式化的,以便于计算机识别和存储。2.记录:多个字段组成记录。不同数据库中其记录的字段数多少不同。记录是按一定标准格式化的,以便于计算机识别和存储。 3.文档:经过有序化外理并附有检索标志的信息集合称为文档,包括顺排文档和倒排文档。 顺排文档:又称线性文档,由每件信息的全记录按一定顺序组成,是数据为的主文档,相当于手工检索工具的正文部分。 倒排文档:又称索引文档,将记录中可检索字段及其属性值提取出来,按一定的顺序组织起来,成为用作索引的文档。 4.帮助文件:使用户了解数据库的使用方法。

  33. 五、信息检索语言  (一)检索语言概念     信息检索语言是信息资源存储和检索的共同语言。 其实质是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息资源内容特征或外在特征及相互关系的概念标识体系。    它是用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言。它要求文献的标引者和检索者共同遵守。在信息存储时,检索语言用来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,检索语言用来描述检索提问,然后形成提问标识。

  34. (二)信息检索语言种类1、按规范化(受控)程度划分(二)信息检索语言种类1、按规范化(受控)程度划分 人为对标引词和检索词 加以控制和规范,使每个 检索词只能表达一个概念 人工语言 直接从原始信息中抽取出自 由词作为检索点的检索语言 自然语言

  35. 2.按检索时组配方式 指在检索前检索词已按固定 关系组配好,并编制在词表中 先组式语言 是指在检索前,检索词在词表中没有 被预先组配,检索时用户可根据不同 的检索需求对某些词进行任意组配 后组式语言

  36. 3.按描述信息外部特征的检索语言划分    是指文献信息的题名(书名、刊名、篇名)、著者姓名/单位名称、出版者、代码/序号(专利号、标准号、报告号)等,将不同的文献信息按照题名、著者等字顺进行排列或按报告号、专利号等顺序进行排列,就形成了以文献题名、著者、号码等检索途径来满足用户的需求的,用来描述文献特征和表达信息提问内容的人工语言。 (1)题名语言 (2)责任者语言 (3)文献信息编号语言

  37. 4、按描述文献信息资源的内容特征划分 题名(书名、刊名、篇名) 责任者(个人、机构名称) 号码(如专利号、标准号、报告号、ISBN号、ISSN号等) 引文 表述文献外表 特征的语言 检索语言的类型 体系分类法 分类法 组配分类法 表述文献内容 特征的语言 标题词语言 主题法 单元词语言 叙词语言 关键词语言

  38. (1)分类语言    它是一种体现知识分类等级概念的标识系统,具有按学科或专业集中地、系统地揭示信息或文献内容的功能。它是以数字、字母或字母与数字相结合作为基本字符,采用字符直接连接并以圆点作为分隔符号的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一种检索语言。 以知识属性来描述和表达信息内容的信息处理方法称为分类法,著名的分类法有《国际十进分类法》、《杜威分类法》、《中国图书馆分类法》等。

  39. 体系分类法(体系分类语言) 直接体现知识分类的等级制概念的检索系统,是按文献内容特征进行分类的检索语言。 基 础 科学分类 指具有许多共同属性的集合。 对 象 文献内容的学科性质 按照知识门类的逻辑次序 上位类(母类) 类21 同位类 类1 知识 ……… 类2 类22 下位类(子类) 类3 类23

  40. 分类语言的优缺点: 优点:便于查全某一学科专业的所有信息或文献;分类语言有等级结构,便于扩大或缩小检索范围;用分类检索,不受文种限制;分类语言既可用于组织检索工具和检索系统,又可用来组织书刊资料的分类排架。 缺点:将检索的内容转换成分类号,要熟悉分类法,否则可能发生误差;分类语言修订的周期性,与科技发展不同步;分类语言单维式直线序列结构,难于处理交叉、相互渗透的多维空间的课题检索等。

  41. 《中国图书馆分类法》使用简介 《中国图书馆分类法》简称《中图法》是我国文献分类标引工作的国家标准。被我国图书信息行业广泛应用。

  42. 一.《中图法》历史 • 1957年《中小型图书馆分类表草案》 • 1964年《中国图书馆图书分类法草案》(下册) • 1975年《中国图书馆图书分类法》第1版 • 1980年《中国图书馆图书分类法》第2版 • 1990年《中国图书馆图书分类法》第3版 • 1999年《中国图书馆图书分类法》第4版起改名为《中国图书馆分类法》 • 2010年 《中国图书馆分类法》第5版

  43. 二.《中图法》基本序列及基本大类 五大部类序列: 马克思主义、列宁主义、毛泽东思想、邓小平理论 (指导我们的思想的理论基础) • 哲学、宗教(自然知识、社会知识的概括和总结) • 社会科学 • 自然科学 • 综合性图书(内容庞杂、类无专属,无法按某一学科内容性质分类的图书) 五大部类序列:(又称大部。这是编制分类法时,对图书首先作的最概括的区分)

  44. 《中图法》22个基本大类

  45. C 社会科学总论 C8 统计学 C91 社会学 C92 人口学 C93 管理学 C931管理技术方法 .1 管理数学 .2 管理的方式方法 …… C933 领导学 C934决策学 C935管理计划和控制 C936管理组织学 C939应用管理学

  46. 将T类展开

  47. 三. 类目之间的关系 示例 O1 数学 O11 古典数学 从属关系 O12 初等数学 O121 算 术 从属关系 O122 初等代数 O123 初等几何 并列关系 O13 高等数学 上位类与下位类之间的关系.一个类与其直接细分出来的小类之间的关系,称从属关系. 在类目表中,下位类一定要带有上位类的属性,上位类一定能包括它所属的各级下位类,他们之间是属种的总体和部分的关系. 指处在同一划分层次上的不同类目的关系,一个上位类分出若干个小类,这些小类之间的关系,是用并列的方式来表达的,称为并列关系.

  48. 四.中图法标记系统 基本遵循层累制,又称等级标记制,是类号位数与类目等相适应、层次分明的一种标记制度。用一位或两位符号标记一个大类,再加一位符号标记二级类目,如此层层累加,表示类目的层层划分。 《中图法》采用 大写拉丁字母与阿拉伯数字相结合的混合制号码。用字母标志一个大类,以字母的顺序反映大类的序列。在字母后用数字表示大类下类目的划分。   数字的编号制度,使用小数制,即首先顺序字母后的第一位数字,然后顺序第二位,以此类推。分类号的排列,严格按照小数制的排列方法。

  49. 辅助标记符号 (1)间隔符号“.” 在字母段之后,自左向右每三位数字加一圆点,当最后一段正好为三位的时候,就不在加圆 F830.31 F299.712 (2)- 总论复分符号(排在数字“0”的前面,是总论复分号的前置标识符) (3) : 组配符号(主类号之间的概念交叉关系 (4)a 推荐符号 (F2a) (5)/ 起止符号 该号只在类目表中出现,表示类目的起止范围 (6)[ ] 交替符号 (7) ( ) 国家、地区区分号 (8) = 时代区分表 (8) “ ” 民族、种族区分号 (9)< > 通用时间、地点区分号 (10) + 联合符号

  50. 中图法标记系统是层累制举例 如: • F 经济 (第一级类目) • F8 财政、金融 (第二级类目) • F83 金融银行 (第三级类目) • F830 金融银行理论 (第四级类目) • F830.1 银行制度 (第五级类目) • F830.2 金融银行体制 (第五级类目) • F830.3 金融组织、银行 (第五级类目) • F830.31 中央银行 (第六级类目) • … ………… 类号位数与类目等相适应

More Related