1 / 56

第七章 信息检索技术

第七章 信息检索技术. 信息检索的概念 信息检索数据库 检索语言和检索效果评价 信息检索的基本流程. 第一节 信息检索的概念. 1 、检索的意义 信息具有共享性,信息资源共享( information resource sharing )是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索 (searching) 。

lucy-fulton
Download Presentation

第七章 信息检索技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第七章 信息检索技术 信息检索的概念信息检索数据库检索语言和检索效果评价信息检索的基本流程

  2. 第一节 信息检索的概念 • 1、检索的意义 • 信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。 • 信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。

  3. 2、检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。  匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。

  4. 信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:

  5. 3、检索点 检索点(access point)是检索的出发点,以前常用“检索途径”(approach)这一术语。 每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。 从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。 反映文献信息内容特征:分类检索和主题检索; 反映文献外部特征:作者、名称和号码检索等。

  6. 1)分类检索(classification) 分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。  分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。较权威的图书分类法有:中国图书馆图书分类法 美国国会图书馆分类法(Library of Congress Classification) 杜威十进分类法(Dewey decimal Classification system)

  7. 2)主题检索 主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有先 组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。

  8. 3)作者检索 作者(author)检索是从文献的作者姓名出发来检索其文献。 “作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(author's affiliation)。

  9. 4)名称检索 名称(title)检索点是从各种事物的名称出发来检索文献信息。 这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。

  10. 5)号码检索 号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。 比如科技报告有报告号,还有其合同号、拨款号等, 比如专利文献有专利号、入藏号、公司代码等; 比如分类号也是号码(特殊的号码检索),等等。 它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。

  11. 图书期刊的号码 国际标准书号ISBN:International Standard Book Number 国际标准刊号ISSN:International Standard Serial Number ISBN号:十位分四段构成, 例如:0-471-81086-x   其中:0: 组号(语种、地区),组号有:0 (英、美、加拿大、南非等英语区), 1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。471: 出版社编号81086: 图书序号x: 一位效验码(x代表10)。

  12. ISSN号: ISSN有八位数字组成, 例如:1005-8230   其中:1005-823: 前七位为出版物序号,0: 最后一位为校验码。 由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。

  13. 4、检索手段 从技术手段上分:手工检索(手检)和计算机检索(机检) 手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval) 工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。

  14. 计算机检索(computer-based retrieval) 它通过数据库系统来实现的。  检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。  检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。

  15. 计算机检索的优势 计算机检索明显优于手工检索,主要表现: 检索的信息量大、 数据更新快、 检索功能强、 检索结果输出的多样性。

  16. 第二节 信息检索数据库(工具) • 检索工具(数据库)的功能 • 检索工具(数据库)的分类 • 检索工具(数据库)的构成

  17. 检索工具(数据库)的功能 事实检索、目录检索、文摘索引检索。 其关联关系如下图:

  18. 1)事实检索 事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如:“我国最近一年在《SCI》上被收录的文献量是多少?”“有哪些海外华人得过诺贝尔奖?”工具: 字典、词典(dictionary) 百科全书(encyclopedia) 年鉴(annual, yearbook, almanac) 手册(handbook, manual) 名录(biography)和书目指南(directory) 数据库属于源数据库:全文数据库、数值数据库、文本-数值数据库、术语数据库、图象数据库、多媒体数据库

  19. 2)目录检索:目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。2)目录检索:目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。 按性质:登记书目(出版、馆藏情况)、科学通报书目等;按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等;按收录的文献类型:图书目录、报刊目录、来源目录等;按所涉的地域:国家书目、联合目录和馆藏目录等;按其媒体:卡片目录、书本目录、磁带目录和机读目录等。 目录检索系统数据库属参考数据库。 经常使用的目录有:馆藏目录、联合目录、机读目录等

  20. 3)文摘索引检索 文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(source),也常带有文献的内容摘要,但不是文献原文。EI、SCI、INSPEC等 文摘索引检索是能揭示到文章、论文级(article-level)的检索,这些文章大量的是来自期刊及会议论文集。 按其报道的学科范围:综合性和专业性检索工具; 按其取材范围:多种出版物类型和单一出版物类型工具; 按其著录方式:题录型和文摘型检索工具; 按其媒体:书本型、电子型检索工具等。

  21. 3、检索工具(数据库)的构成

  22. 第三节 检索语言和检索效果评价 • 检索语言 检索语言(retrieval language)概念 检索语言的分类 人工语言和自然语言 分类语言和主题语言 • 检索效果评价 检索效果(retrieval effectiveness) 查全率和查准率 提高检索质量的措施

  23. 检索语言的概念 语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。 检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。

  24. 检索语言的分类 按文献信息的特征:描述信息内容特征的语言和描述信息外部特征的语言; 按检索工具编排体系:分类语言和主题词语言; 按词汇的类型:关键词语言、单元词语言、标题词语言和叙词语言。 按其规范的情况:人工语言 (规范语言)和自然语言(非规范语言); 按检索语言的词汇组配方式:先组式语言和后组式语言。

  25. 不同的检索语言构成不同的标目及其索引系统,提供各种检索点。不同的检索语言构成不同的标目及其索引系统,提供各种检索点。

  26. 人工语言 (规范语言) 和自然语言(非规范语言) artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。 natural language:自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。

  27. 分类语言和主题语言 分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。 主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。

  28. 常用的检索技术

  29. 2、检索效果评价 检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。 技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的; 经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的。 6项评价检索效果的指标: 收录范围、查全率、查准率、响应时间、用户负担、 输出形式。

  30. 查全率 R(Recall ratio)查准率 P(precision ratio) 检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。

  31. 实验结果表明查全率与查准率之间存在互逆关系实验结果表明查全率与查准率之间存在互逆关系

  32. 提高检索质量的措施 提高检索系统的质量:对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。 提高用户使用检索系统的能力:充分发挥检索系统的功能。这里涉及到下一章要讨论的检索策略问题。检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合。另外,要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求。 当代科技信息检索系统能达到的查全率和查准率分别是60%~70%和40% ~50% 。

  33. 第四节 信息检索的基本流程 目的: 让你以最有效的方法 收集及筛选所需数据 以提高科学研究能力

  34. 检索的程序 1、明确检索的目的 2、检索前的准备工作 3、选择检索系统和数据库 4、规划检索程序 5、分析检索结果

  35. 1、明确检索目的

  36. 目的的确定 • 课题分析确定检索主题 • 确定检索的范围:地理、时间段、文献类型等 • 预期所需文献信息数量

  37. 2、检索前的准备工作 • 明确学科通用的关键检索词 • 是否对特定的作者、专家学者的研究感兴趣? • 是否有特定的出版机构的文献与你的研究主题相关? • 其它?

  38. 检索要求:新、准、全 如要了解科技的最新动态、学科的进展、了解前沿、探索未知,则强调一个"新"字; 如要解决研究中的具体问题,则要强调一个"准"字; 如要了解一个全过程、写综述、作鉴定、报成果,就要回溯大量文献,要求检索的全面、详尽、系统,则要强调一个"全"字。

  39. 3、选择检索系统和数据库 • 掌握数据库资源所覆盖的学科范围 • 掌握各种数据收录文献的类型 • 查看数据库的详细介绍和说明 • 请教图书馆员要求介绍检索的最佳数据库 检索点与检索词的选择

  40. 4、规划检索程序

  41. 4 规划你的检索程序 • 选定检索主题词 • 建立检索表达式 • 调整相关设定:年代、类型等

  42. 选定检索主题词 • 利用关键词的上下位词、特有名词及同义词,查阅工具如字典、分类表等。 建立你的检索 • 使用逻辑算符(AND, OR, NOT) • 限制检索条件:作者, 刊物或年代. 调整相关设定 • 决定检索结果的显示方式:以 日期,关联性排序

  43. 或 即时检索 • 以快速方式进行初步检索 • 如果可能的话,可利用手头已找到一篇及一些评论性综述文献

  44. 进 行 检 索

  45. 5、分析检索结果 不满意 满 意

More Related