800 likes | 1.03k Views
文献检索(信息检索) 第四章 计算机信息检索技术. G252.7/160=2. 计算机信息检索技术的概念 它是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的 相关技术 。 各种信息检索技术通过不同的检索点、检索词、检索算符等表达出来。. 第四章 计算机信息检索技术 第一节 计算机信息检索技术的发展 第二节 计算机信息检索的步骤和策略调整方法 第三节 检索方式 第四节 检索点、检索词 和检索方法 第五节 检索算符 第六节 构造检索式 第七节 检索功能 第八节 检索效果评价. 第一节 计算机信息检索技术的发展
E N D
文献检索(信息检索) 第四章 计算机信息检索技术 G252.7/160=2
计算机信息检索技术的概念 它是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术。 各种信息检索技术通过不同的检索点、检索词、检索算符等表达出来。
第四章 计算机信息检索技术 第一节 计算机信息检索技术的发展 第二节 计算机信息检索的步骤和策略调整方法 第三节 检索方式 第四节 检索点、检索词和检索方法 第五节 检索算符 第六节 构造检索式 第七节 检索功能 第八节 检索效果评价
第一节 计算机信息检索技术的发展 一、计算机信息检索技术的发展历史 1.脱机批处理检索阶段(20世纪50年代中期-60年代中后期) 当时,计算机硬件发展很快,但还没有连接通信网,也没有远程终端装置,不能提供问答服务的检索方式,只能进行现刊文献的定题检索和过期文献的追溯检索,同时利用计算机编辑出版检索性刊物。所谓脱机批处理方式,是指定期由专职检索人员把许多用户课题汇总、批量处理提问要求并把结果提供给用户。但缺乏与用户的交互过程,检索结果获得不及时以及信息需求和检索结果存在一定的误差等
2.联机检索阶段(20世纪70年代) 20世纪70年代计算机分时系统的出现,通信技术的改进,使得许多终端、远距离两地信息的技术得以推广,计算机信息检索技术从脱机阶段进入联机信息检索阶段。所谓联机检索,就是用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。虽然联机检索无需委托,直接面向最终用户,在检索过程中是“人机对话”有很强的交互功能,而能能及进取得检索结果,但检索指令复杂需要依赖专业检索人员,且检索费用昂贵,一般用户难以承受。 许多著名的联机检索系统有:DIALOG、MEDLINE
3.光盘检索阶段(20世纪80年代) 光盘是20世纪80年在计算机技术、激光技术等现代科技成果的基础上发展起来的新型电子出版物,检索费用大大低于联机检索,利用光盘存储信息方便、便于携带,除可以追溯检索、定题服务外,还可用于“自建库”和做联机检索预处理。但它光盘检索得到的信息又不十分及时。 4.网络化联机检索阶段(网络信息检索)(20世纪90年代至今) 它使人们可以在很短的时间里查遍全球的信息资料,使人类的信息资源共享成为可能,使网上的信息源利用率提高,信息组织更为有序和有效。
二、计算机信息检索技术的发展趋势 1.以人工智能为代表的信息检索自动化趋势 网络信息检索自问世以来,自动化技术就占了主导地位,包括自动标引、自动文摘、自动分类等信息自动化技术极大地促进了检索效率的提高。信息检索自动化技术的发展取决于人工智能技术的研发程度,其中的自然语言分析和处理使人工智能与信息检索有着密切的联系,信息检索工具开始把人工智能更多地引入网络信息的标引和检索中,特别在自然语言理解、机器翻译、专家系统等方面已取得了进展。
2.多媒体信息检索技术的发展 Web出现以前,由于检索工具本身的限制,信息仅限于文本检索。以显示多媒体为特点的Web为非文本信息检索提供了良机。目前,包括图像检索、影像检索和声音检索的多媒体声像检索成为信息检索领域研究的热点。 3.多语种检索的支持 网络信息检索的多语种支持功能就显得愈加重要,现在解决多语种支持的访求有以下几种:把检索结果限制在某一种语言之内;使用某一种语言直接检索,它代表了多语种检索的主流;最后一种是自动的翻译检索结果。
4.个性化检索工具和专业化检索工具 通用的检索工具具有永远无法弥补的缺陷,即使提高了检索工具的标引和检索机制,收效却不是很显著。因此,开发个性化和专业化的检索工具是大势所趋。如MEDLINE,也开通了Web界面供用户免费检索,作为一个专业联机检索数据库,其检索功能和效果是目前网络信息检索工具所望尘莫及的。
第二节 计算机信息检索的步骤和策略调整方法第二节 计算机信息检索的步骤和策略调整方法 信息检索一般有分析检索课题、选择检索系统、确定检索策略(选择检索点和检索词、制定检索式)、调整检索策略以及获取原始文献等步骤 。检索步骤如下: 一、分析研究课题 明确检索要求 二、选择检索系统 三、选择检索点、检索词 四、制定检索式 五、实施检索 六、修正或调整检索策略 七、获取检索结果
一、分析研究课题 明确检索要求 检索课题分析作为检索策略制定的根本出发点,要明确检索课题所包含的概念成份及其相关关系,这是检索效率高低或成败的关键 1.分析课题的主要内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。必要时要做辅助检索,做到全面了解。 2.确定课题的文献类型 如果属于基础理论性探讨,要侧重于查找期刊论、会议论文、专业著作。如果是尖端技术研发,应侧重于科技报告、如属于发明创造、技术革新,则应侧重于专利文献。如为产品定型设计,则需利用标准文献及产品样本。明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。
3.确定检索的所需文献的时间范围,所需的语种以及文献量的多少。3.确定检索的所需文献的时间范围,所需的语种以及文献量的多少。 根据课题的起始年代和研究的高峰期确定检索的时间范围 4.分析用户的检索评价要求,即对查新、查准、查全的指标要求。 如要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字;若要解决研究中具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字;如要了解一个全过程、写综述、述评、写专著、做鉴定、报成果,就需回溯大量文献,要求检索的全面、详尽、系统,则强调一个“全”字。
二、选择检索系统 在课题分析的基础上,根据课题的特点、信息需求、检索目的,选择专业对口、覆盖范围广、更新及时、内容准确权威、检索功能完备的检索系统。数据库选择3C四原则: Content:数据库存储的文献内容,涉及学科范围、科技含量、数据库类型、数据来源。 Coverage:数据库的覆盖面,涉及收录文献时间跨度、国家区域、机构、文献量等 Currency:数据库的更新频率、周期、更新是否 及时 Cost:数据库的费用,不同的数据库的检索方式和输出格式的收费是不一样的。
三、选择检索点、检索词 检索点(检索途径)是检索的出发点,用于文献检索的检索点很多,反映文献信息内容特征的有:分类检索和主题检索;反映文献外部特征的有:作者检索、名称检索和号码检索等。 检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。 检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。
四、制定检索式 (由检索点、检索词、检索算符组成)应明确所需检索的概念及其相互关系,用系统支持的算符以及提供的各种选项,将这些词组配起来形成检索提问式,以充分表达信息需求。 五、实施检索 完成了上述工作之后,就可以输入检索词实施检索了,或根据手工检索工具的检索着手检索。 注意:所输入的检索词必须与检索项(检索途径)相匹配的,否则就会功亏一篑。
六、修正或调整检索策略在实际检索过程中,常会出现检索结果过少或过多的情况,这时候就需要及时修正或调整检索策略,以完善检索结果。 扩大文献检索量(检索到的文献量过少) 1.考虑使用同义词或近义词(用布尔逻辑或连接) 2.选择能覆盖较大检索范围的检索点,从篇名扩大 到关键词、摘要或全文。 3.使用截词符 4.考虑使用上位词。如飞行器是航天飞机的上位词 5.放宽检索限定,如年限、期刊的限定范围。 6.是否有拼写和语法错误
缩小文献检索量(检索到的文献量过多) 1.使用AND、NOT以及位置算符限制范围 2.选择检索范围较小的字,如从摘要缩小到篇名进行检索。 3.使用二次检索 4.使用下位词 5.缩小检索限定,如缩小检索年限、期刊级别 6.使用精确检索,如对固定短语来说可用“” 7.不使用过分含混或一般性的词汇 8.应考虑使用控制词汇 9.截词使用不能过松 10.注意数据库的隐含性概念
七、获取检索结果 检索结果的获取有多种方式,包括页面保存、下载、E-mail邮件订购以及文献传递等,用户可以根据自身检索条件进行选择。 1.利用全文数据库直接获取 如“中国期刊全文数据库”、“万方数据资源系统”、“超星数字图书馆”等 2.利用文献传递系统获取 如“读秀学术搜索”、“安徽高校资源共享系统”、“国家科技图书文献中心”“高校人文社会科学文献中心” 3.利用文摘数据库的原文服务 可以通过收录文献的全文链接,向数据库商提出索取原文申请。
第三节 检索方式 一、浏览方式 1.分类浏览:按学科类别浏览。可点击“分类导航”或“分类表”中的任何一个类别,接着显示所点击类别的下属子类,如此类推。分类浏览的结果页面通常“检索词”的输入框,以便进行二次检索,缩小检索范围。 2.字顺浏览:按检索词首字母为序,提供相应检索字段的浏览。如按出版物名称字顺、著者姓名字顺等。 例如已知刊名,可选择“按刊名字顺浏览”,进入期刊访问页面,浏览或查询论文。
二、 查询方式 初级检索:也称快速检索、基本检索。利用初级检索系统能进行快速方便的查询,适用于不熟悉多条件组合查询的用户。 高级检索:也称扩展检索。高级检索可进行多个条件的组合检索,即多个字段之间有一定逻辑关系(and,or, not)的检索。 专家检索:也称专业检索。检索式中可同时使用检索词、逻辑算符(AND,OR,NOT,AND OT)、字段标识符、邻近算符、截词符等多种算符,创建更复杂的检索式。 二次检索:在结果中检索又称为二次检索,当检索结果太多,想从中精选出一部分时,可使用二次检索。
第四节 检索点、检索词和检索方法 一、检索点 检索点(access point)是检索的出发点,以前常用“检索途径”(approach)这一术语。现在常用的名称还有检索项、检索入口、检索字段等。每种文献均有内容特征及其相关的外表特征,检索点包括反映文献信息内容特征的分类、主题等检索点,以及反映文献信息外表特征的作者、题名、号码等检索点。常用的检索点主要有:分类、主题、作者、团体作者、篇名、摘要、关键词、全文、基金、号码等。
1.分类检索点:分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系。具体表现为分类表、分类目录、分类索引、分类导航、分类专辑等。分类检索点能满足族性检索的需求,查全率较高。1.分类检索点:分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系。具体表现为分类表、分类目录、分类索引、分类导航、分类专辑等。分类检索点能满足族性检索的需求,查全率较高。 2.主题检索点:主题检索点以课题的主题内容为出发点,按主题词、关键词、叙词、标题词等来查找文献。主题检索点对应文献的主题概念,主要包括题名检索点、关键词检索点、摘要检索点等。以主题作为检索点能满足特性检索的要求,查准率较高,适合查找比较具体的课题。
3.作者检索:是从文献的作者姓名出发来检索其文献。 “作者”广义上还应包括:汇编者、编者、主办者、译者等,此外,还有代表机构、单位的团体作者,包括作者所在单位。 4.名称检索:是从各种事物的名称出发来检索文献信息,包括书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。书名检索引、会议名索引、书目索引、刊名索引等者提供了从名称进行检索的途径。 5.号码检索:号码检索点以号码特征来检索文献信息。包括文献的编号、代码等,它们是文献信息的一些特有的外部标识,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。如科技报告号、专利号、标准号、ISSN、ISBN、馆藏单位的馆藏号、索取号等。
二、检索词 无论专业检索人员还是一般信息检索用户在进行信息检索时,都面临着一个问题,这就是主题分析后标引技术的运用,即正确的选词。特别是利用国外检索工具时显得尤为重要。 检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。
(一)选词原则 1.必须反映信息概念的准确性 选定的主题词,主要是各学科领域文献中经常出现、在信息检索中有使用价值和一定的使用频率、能作为主题汇集一定量的文献或具有叙词组配功能的名词术语,并能通过概念组配可以表达文献或用户查询的特定主题。 比如: 古代语言演变=古代语言+语言演变 古代语言演变=古代语言+演变
2.反映信息内容的全面性 列举出所有同义词、近义词,防止漏检。 比如:协同设计+协同工作 3.注意检索词的多样性 比如:轨道 铁轨 计算机 微机 电脑 (三)提取检索词的方法 提取检索词是计算机检索成败的关键,信息用户的课题名称及描述语句往往与检索系统中的检索词有一定的差距,在信息检索时,需要从课题的名称及描述性的语句出发,经过切分、删除、替换、增加等步骤,提取检索词。
1.切分 就是以词为单位划分句子或词组。词是语义切分的最小单元,也是检索的最小单元。经过切分后,检索课题转换成词的集合,而这一组检索词中,往往只有一个或少数几个词是核心词,就是必须使用的关键词,而其他的词都是限定这个核心词。 如: 基于隐马柯夫模式的离线汉字识别系统 计算机操作系统 羊毛
2.删除 在用户给的课题描述语句中,往往有不具有检索意义的虚词及其它关键词,必须删除不需要的词,将语句转换成为关键词的集合。 (1)删除不具有检索意义的虚词及其关键词 如:基于Web的数据库 (2)删除过分宽泛和过分具体的限定词 过分宽泛没有触及问题的实质,过分具体的限制条件则会挂一漏万。因此,这些限定词圴属于不必要的限定词,应删除掉。 如:稀土材料的研究现状及发展趋势 自动熔化极气体保护电弧焊的可控硅电源
(3)删除存在蕴涵关系的可合并词 如果两个词之间存在相互蕴涵的关系,可酌情去掉其中一个而保留另一个。如: 稀土材料钕(铝)铁硼的研究 电磁波教学用的多媒体课件。 3.替换 用户可能使用表达欠佳的词来叙述检索要求,他们给的词也许模糊、宽泛、狭窄或不可行,这时,可以用概念替换法,引入更明确、更具体、更本质、更可行的概念作为替换词代替原有词,或用同义词和相关词增加到原来的概念组中。如: 稀土材料的研制→钐钴 空气中细菌的计算方法→空气污染的计算方法
4.补充还原词组 许多名词是经由词组缩略而成,因此,可以采用与缩略相反的操作-补充还原,导出一个词的来源词组,并将来源词作为原词的同义词,补充进行检索式。 补充同义词或相关词:跳扩频→跳扩频+跳频+扩频 补充同一词的不同拼写:宽带→带宽 补充同类词:第四代飞机→F22、F35 补充限定词:电子科技大学→电子科技大学*成都 双语教学→双语教学*(英汉+汉语)
(四)、选择检索词应注意的事项 1.当主题不熟时 (1)如果对主题不熟悉,可采用关健性的文献以确认检索词汇和理清概念。 (2)利用控制词汇,作为索引和检索的工具,可以解决同义词、类同义词及同形异义词的问题。可利用系统所提供的索引、词汇表,或查询分类法、标题表等进行检索。 (3)相关词汇,除了可利用选定的检索词汇进行检索外,也可利用索引、标题表或系统自动提供之相关词进行检索,以增加检索结果。 (4)反义词,可利用检索词汇的反义词进行检索,以获取相关主题的文章。
2.词汇变化 (1)使用英文作为检索词汇:宜特别注意不同词性,单复数及英美不同写法的变化。 (2)利用相关书目找寻词汇:在寻找检索词汇时,可利用手边文献的相关书目,再查询更多合适的检索词汇。 (3)同义词,同形异义词:若所选择的词汇有许多同义词可以都纳入检索词汇中,若为同形异义词,则需要在检索时多加些条件做限定,以免查出许多不相关的文献。 (4)注意停用、常用或无关紧要词:如冠词、介词等;如决定、研究、趋势等这些常用或无关紧要的词不宜作检索词。
3.自然语言与控制词汇的转换 (1)可多利用自然语言与控制词汇的转换进行检索,以查询到较多的文献。 (2)注意使用的数据库的隐含性的概念。 “医学伦理对于医学教育的重要性”用Medline数据库进行检索。“医学”就是隐含性的概念。 4.选用单字或片语进行检索时,尽量简短。 输入的片语或词组愈长,找到完全吻合的机率就愈小。 5.可以利用布尔逻辑算符组合关键字(词),以扩大或缩小检索范围。
三、计算机信息检索的方法 1.常用法(工具法) 直接利用书目、索引、文摘等检索工具进行查找文献的一种方法。包括顺查法、倒查法和抽查法。 顺查法:根据检索课题的起始年代,利用选定的检索工具,按照由远及近,从过去到现在的时间顺序逐年查找的方法。查得文献较系统全面,查全率高,但量大、费时,效率不高。 倒查法:由近及远,从现在到过去的逆时顺序查找文献的一种方法。适用于新课题、新理论、新技术的检索,最新观点但不全面系统。 抽查法:根据检索课题所属学科的发展特点,选定其中学科发展兴旺、发表文献较多的时段,逐年进行查找的一种方法。针对性强,节省时间,但必须熟悉学科发展特点和阶段。
2.引文法(追溯法) 是利用已有文献后附的参考文献或引用文献作为线索,逐一追溯查找相关文献的方法。往往在缺乏检索工具但拥有丰富原始文献的情况下使用。优点是文献系统性较强,但参考文献往往有限。 3.综合法(循环法) 是交替使用常用法和追溯法来进行检索的综合方法。在查找文献时先用常用法,查出一批文献,然后再选择出与检索课题针对性较强的文献,利用这些文献所附的参考文献追溯查找,如此反复,直到满足要求为止。 4.浏览法 直接利用最新的有关书刊查找所需文献的一种方法。优点是及时获得最新文献,了解课题的学科发展的最状况。缺点是受馆藏文献范围的局限以及对学科资源的了解的情况。
第五节、检索算符 检索算符也称组配符,用于连接检索点和检索词,表达检索词之间的关系,与检索点、检索词共同构成检索式,表达用户的检索需求。 1.布尔逻辑算符 2.位置算符 3.截词算符 4.检索字段符(字段符)
通过标准的布尔逻辑关系词来 表达检索词与检索词之间逻辑 关系的检索方法。常用的逻辑 算符有三种:NOT、AND、OR 一、 布尔逻辑算符 • 用NOT、AND缩检,用OR扩检。一般搜索引擎空格代表AND。 • 例如,计算机AND农业、计算机OR农业、计算机NOT农业检索出来的文献是完全不同的。
“与” 计算机*网络 A B “与”是一种用于交叉概念或限定关系的组配,如图所示。可用AND或and或*表示。 A * B,A and B • “或” “或”是用于概念并列关系的一种组配,如图所示。可用OR或or或+表示。 A B A + B,A or B • “非” “非”是用于概念删除关系的一种组配,它可从原来检索结果中剔除一部分不需要的内容,如图所示。可用NOT或not或-表示。 A B A – B,A not B
逻辑与(AND)* 缩检 例如:查找“有关新闻美学的文献”。 只输入“新闻”或“美学”,则命中文献太多,且有许多不是自己所要的。 如果输入“新闻*美学”,则检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。 如果输入“新闻美学”作为检索词,可命中《戈公振的新闻美学实践》这样的文献,但漏检了《新闻的美学属性》、《新闻标题中的美学》这些文献。 如果用“新闻*美学”来进行检索,则上述三篇文献都检中。
逻辑或(OR)+ 扩检 • 例如:“查找研究杜甫的文献”,检索途径选择题名后,输入“杜甫”,命中540篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。 太阳(SUN OR SOLAR)
在AND运算符并不规定两个检索词的位置和出现顺序,而位置算符可弥补这一不足,使用检索结果的查准率提高。在AND运算符并不规定两个检索词的位置和出现顺序,而位置算符可弥补这一不足,使用检索结果的查准率提高。 二、 位置算符 位置算符表示其连接的两个 检索词之间的位置关系, 常用的有(W)(nW) (N)(nN)(L)(S)(F)等
(W)或()算符——with 表示算符两侧的检索词之间只能是空格或标点符号,不得有其他字母或词,且词序不能颠倒。 例如:double(W)digit(双倍数) 表示具有double digit 和double-digit形式的文献记录为命中文献。 • (nW)算符——n words • 表示两个词之间可插入n个词,且词序不可颠倒。 例如:Laser(1W)printer 表示具有Laser printer和Laser colour printer形式的文献记录为命中文献。
(N)算符——Near • 表示在此算符两侧的检索词相邻,且顺序可以颠倒,但两词之间不可插入任何词。 例: intelligent(N)machine 可检出intelligent machine 及machine intelligent等方面的信息。 • (nN)算符——Near • 表示两个词之间最多可插入n个词,包括实词和禁用词,词序任意 例: econom?(2N)recovery 可检出表示“经济恢复”的以下词语:economic recovery, recovery of the economy,及recovery from the economic
(F)算符——Field • 表示两个词必须在记录中的同一个字段中出现,如篇名字段、叙词字段、文摘字段等,且词序可变;夹在其间的其他词数量也不限。而AND布尔逻辑算符的两个检索词可以出现在不同的字段。 例:Pollution (F) control (污染 控制) 检中一篇标题为“control andmanagement of industrial pollution”的文献记录为命中文献。 • (S)——Subfield或Sentence • 表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。可以是文摘字段中的一个句子。
又叫部分一致检索。主要用于西文数据库的检索。这种功能可减少输入次数,简化检索程序,扩大检索范围,从节省时间,提高查全率。又叫部分一致检索。主要用于西文数据库的检索。这种功能可减少输入次数,简化检索程序,扩大检索范围,从节省时间,提高查全率。 三、 截词符 截词是指检索者将检索词 在他认为合适的地方截断。 按截词位置:后方截词、中间截词、前方截词 按截断字符数量:有限截词( ? )、无限截词(*) ? * .#
后方截词 有限截词 无限截词 有限截词是在一个词尾加 有限个截词符号,n个截 词符号表示其后可添的字 符数少于等于n个。 无限截词是在一个词尾 加一个截词符号,表示在 其后可添加任意多个字符
例1: Smok?(无限截词) 它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。 • 例2:Smok??(有限截词) 将对smoke, smoky, smoked, smoker, smokes等
中间截词是在一词中间出现若干 个截词符号,表示可插入若干个 字符,只允许有限截词。 • 中间截词 如: analy?er(分析仪) 它将对analyzer和analyser进行检索
前方截词 表示其左边不管截去有限或无限个字符, 只要数据库中具有与截词符号后面部分字 符串相同的检索词的信息,即为命中信息。 如:?computer 对minicomputer和microcomputer等进行检索。(小型机) (微机)