1 / 77

文献信息检索

文献信息检索. 绪论. Contents. 内容. 1.1 文献信息基本知识. 1.2 信息检索基础知识. 1.3 计算机检索技术及方法. 1.4 信 息 素 质. 1.1 文献信息基本知识. 信息和文献的基本概念 信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。 知识是人们通过实践对客观事物及其运动过程和规律的认识。知识是信息的一部分,知识是信息被认识了的部分。

Download Presentation

文献信息检索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文献信息检索 绪论

  2. Contents 内容 1.1 文献信息基本知识 1.2 信息检索基础知识 1.3 计算机检索技术及方法 1.4 信 息 素 质

  3. 1.1 文献信息基本知识 信息和文献的基本概念 • 信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。 • 知识是人们通过实践对客观事物及其运动过程和规律的认识。知识是信息的一部分,知识是信息被认识了的部分。 • 文献是记录人类知识信息的一切载体。凡是人类的知识信息以文字、图形、代码符号、音频或视频等形式,用一定的技术手段记载在物质载体上,由此而形成的每一件记录都可称为文献。

  4. 1.1 文献信息基本知识 信息的主要特点 • 客观性:控制论创始人维纳认为:信息是主、客观世界进行交换的内容的名称。(无论人们对各种信息是否敏感,但它们却客观存在。) • 效用性:信息论创始人香农认为:信息能够消除不确定性的东西,它能增强系统的有序性,减少破坏和混乱的噪声。(只有消除不确定性,才能提高决策和行动的效益。) • 多样性:《韦氏大词典》(美国)注释信息为:信息是通信的事实,是在观察中得到的数据、新闻和认识。(说明信息的表现形式可以是数据、消息和新闻等,具有多样性。)

  5. 1.1 文献信息基本知识 文献信息资源的构成 可以从不同的角度或层面予以描述和划分,譬如从记录文献的物质载体、文献信息的表现形态(文献类型)以及文献信息被加工的详略程度等。 • 按文献信息的物质载体划分 • 刻写型文献:是指印刷术尚未发明之前的古代文献和当今尚未付(交付的意思)印的手写记录,以及正式付印前的草稿。如古代的甲骨文、金文、棉帛文、竹木文以及现如今的会议录、手稿等。

  6. 1.1 文献信息基本知识 • 印刷型文献:是指印刷术发明以后,以纸张为存储载体,通过油印、铅印、胶印或复印等手段,将文字固化在纸张上所形成的文献,如图书、期刊以及报纸等。其优点是便于传递和阅读,并且阅读时不需借助任何技术设备。但是它体积大、存储密度低,所占的存储空间很大。 • 缩微型文献:也称为缩微复制品文献。它是以感光材料为载体,以印刷型文献为母本,采用光学摄影技术,将文献的体积浓缩而固化到载体上,如缩微卡片、胶卷等。缩微文献体积小,密度大,易于传递,并且保存时间长,不易损坏和变质。但不能直接阅读,需借助各种型号的阅读器。

  7. 1.1 文献信息基本知识 • 声像型文献:也称为视听型文献,又称为声像资料、视听资料和音像制品。它是以磁性材料或者感光材料为存储载体,借助特定的机械设备直接记录声音信息和图像信息所形成的文献,如录音带、录像带等。其特点是形象直观、逼真,但是使用时需要借助一定的设备。 • 机读型文献:是通过一定的技术将文字、图像以及声音等转换成二进制数字代码,记录在磁性介质或光记录介质载体上,采用计算机进行阅读、浏览的文献载体。机读文献包括文摘、题录及全文等各种类型数据库。其特点是一次加工,多次使用,存储容量大,节省存放空间,易于实现资源共享,是一种很有发展前途的文献类型。但是检索机读型文献时,必须借助电子计算机。

  8. Insert title text here • 按文献信息的表现形式划分 • 图书:最为传统和常见的文献表现形式,它具有内容系统、全面、成熟和可靠等特点,但传递信息的新颖性、快捷性不如期刊、会议等文献类型。 • 报刊:定期或不定期、具有连续出版编号(卷、期、年、月、日)的出版物。具有品种繁多、信息量大、出版周期短、报道速度快、提供内容新以及能及时反映当前科技发展趋势等特点。 • 学位论文:高等学校学士、硕士或博士毕业生为申请学位而提交的毕业论文。偏重理论,所探讨的问题比较专深。特别是硕、博士学位论文,在某些方面往往提出了具有独到的见解和观点,对研究工作有较大的参考价值。

  9. 1.1 文献信息基本知识 • 会议资料:学术会议上宣读或交流的书面论文。其形式可以是单行本式的会议预印本,也可以是正规出版的会议论文集。会议文献的特点:文献论题集中,内容新颖、丰富、专门、深入、学术性强,能反映出一个国家、地区或国际当前某一科学技术领域的最新成就、最高水平和发展趋势。 • 专利文献:专门记录和反映发明创造技术信息及内容的一种文献类型。包括专利(申请)说明书以及与专利有关的法律文件及诉讼资料、用以报道专利信息的专利公报、专利信息检索工具(书)及检索系统等。

  10. 1.1 文献信息基本知识 • 科技报告:关于某项科研成果的正式报告,或者是对研究过程中阶段进展情况的实际记录。其特点是每份报告自成一册,篇幅长短不一,编有由机构代号和连续序号组成的报告号。如,NA5A-CR-N6953(美国宇航局科技报告)、HY93007(航空信息研究报告)等。科技报告内容新颖、专深,其流通范围有一定的限制,仅有小部分可公开或半公开。 • 产品资料:制造厂商为了宣传推销其产品而编制的以介绍产品性能为主的资料。如产品目录、产品样本(集)、产品说明书、产品总览和产品数据手册等。其内容大致为已定型产品的性能与用途、结构原理、使用方法、操作规程和产品规格等。

  11. 1.1 文献信息基本知识 • 2.按文献信息的表现形式划分 • 8)科技档案是科学技术研究和生产建设部门在研究、生产和建设活动中形成的一整套技术文件,包括任务书、协议书、技术经济指标、审批文件、研究计划、方案、原始记录、分析报告和设计图纸等。特点:①反映本单位科学技术研究、生产建设活动的真实历史记录,内容真实、详细、具体、准确可靠;②数量庞大,是科技储备的最完善、最可靠的形式;③保密性较强,一般都有密级限制,主要为内部使用,借阅手续严格。

  12. 1.1 文献信息基本知识 • 标准资料:国家及有关单位对工农业产品和工程建设的质量、规格及其检验方法等方面所作的技术规定及共同规范。它是从事研究、生产、开发及工程建设的一种共同技术依据,具有一定的法律约束力,突出特征是它的新陈代谢。随着经济条件与技术水平的提高,常有新的标准被制定出来或对现有标准进行修改或补充,因此以新代旧,过时作废的情况时有发生,应当随时予以关注。

  13. 1.1 文献信息基本知识 • 政府出版物:各国政府部门及其设立的专门机构发表、出版的各种文件。内容大致可分为行政性文件(如法令、统计等)和科技文献。其中科技文献占整个政府出版物的30%—40%左右,包括政府所属各部门的工作研究报告、科普资料和技术政策等文献资料。政府出版物全面系统地反映了一个国家(地区、部门等)在政治、经济、军事、文化和教育等方面的思想、方针、政策及措施等。政府出版物对于了解、掌握上述情况,做出相应的决策、采取适当的行为都具有指导性意义和重大的参考价值。

  14. 1.1 文献信息基本知识 • 网络文献:那些来自于互联网上的、不属于上述任何一类型文献(即非为上述各类文本的数字化形态)、但又具有它们中的一些相应作用的网上文献。特点:形式多样、图文并茂;内容广泛,质量不一;获取方便,摘录容易;更新度很高,可信度不定;作者身份难辨,信息来源欠明。因此,虽然发展势头很快,但把它作为主要的文献信息资源还有待时日。

  15. 1.1 文献信息基本知识 • 按文献信息的加工程度划分 • 零次文献:未以公开形式进入社会流通使用的实验记录、会议记录、内部档案、论文草稿和设计草稿等。具有信息内容新颖、不公开交流、难以获得、不成熟及不定型的特点。 • 一次文献:是指作者以本人生产与科研工作成果为依据,创作、撰写而形成的文献。如期刊论文、科技报告、会议论文、专利说明书及各种专著等。一次文献的特点在于内容新颖、翔实、具体,一般说它是文献信息检索的终极目标。

  16. 1.1 文献信息基本知识 • 二次文献:是指对一次文献信息进行加工、提炼、浓缩,而形成的工具性文献。它主要包括各种书目、题录和文摘(数据库)。二次文献是人们对一次文献进行有效的管理、控制和利用的工具,它提供了一次文献的概略及线索。 • 三次文献:是根据特定的要求对一次文献和二次文献的内容进行综合分析、系统整理、高度浓缩后形成的文献,如各种词典、百科全书、年鉴、指南数据库等。三次文献提供各种事实与数据。

  17. 1.2 信息检索基础知识 • 信息检索概述 信息检索通常是指将文献信息按一定方式组织和储存起来,并根据用户需要检索出有关信息的过程。因此,信息检索的全过程应包括以下两个主要的方面。 1)信息标引和存储过程。对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储,组成检索工具或检索文档,即组织检索系统的过程。 2)信息的需求分析和检索过程。分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即检索系统的应用过程。

  18. 1.2 信息检索基础知识 信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。提问特征是对信息需求进行分析,从中选择出能代表信息需求的主题词、分类号或其他符号。

  19. 1.2 信息检索基础知识 • 信息检索概述 例 查找关于“硅藻土在塑料工业中的应用”方面的信息 根据信息需求的范围和深度,可选择“硅藻土”和“塑料”为第一层面的提问特征,“硅藻土”和“通用塑料、工程塑料、特种塑料”为第二层面的提问特征,“硅藻土”、“聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰亚胺、聚酯,玻璃钢”等塑料品种名称为第三层面的提问特征。检索标识是信息存储时,对信息内容进行分析提出能代表信息内容实质的主题词、分类号或其他符号。

  20. 1.2 信息检索基础知识 • 信息检索的类型与特点 信息检索根据检索的目的和对象不同,可以分为书目信息检索、全文信息检索、数据信息检索和事实信息检索。

  21. 1.2 信息检索基础知识 1.书目信息检索 以标题、作者、摘要、来源出处、专利号以及收藏处所等为检索的目的和对象,检索结果是与课题相关的一系列书目信息线索,即检索结果不直接解答课题用户提出的技术问题本身,只提供与之相关的线索供参考,用户通过阅读后才决定取舍。 书目信息检索是一种相关性检索。例如,检索“甲壳素水解制壳聚糖”的国内外专利技术有哪些,就属书目检索的范畴。

  22. 1.2 信息检索基础知识 2.全文信息检索 以论文或专利说明书等全文为检索的目的和对象,检索结果是与课题相关的论文或专利说明书的全部文本,检索结果也不直接解答用户提出的技术问题本身。 全文信息检索也是一种相关性检索,它是在书目信息检索基础上更深层次的内容检索。通过对全文的阅读,可进行技术内容及技术路线的对比分析,掌握与研究课题的相关程度,为挖掘研究课题的创新点提供参考与借鉴。

  23. 1.2 信息检索基础知识 3.数据信息检索 以具有数量性质,并以数值形式表示的数据为检索的目的和对象,检索结果是经过测试、评价过的各种数据,可直接用于比较分析或定量分析。 数据信息检索是一种确定性检索。例如,查找各种物质的物理化学常数、各种统计数据和工程数据等属于数据检索的范畴。

  24. 1.2 信息检索基础知识 • 4.事实信息检索 以事项为检索的目的和对象,检索结果是有关某一事物的具体答案。 事实信息检索是一种确定性检索。但事实信息检索过程中所得到的事实、概念、思想与知识等非数值性信息和一些数值性信息须进行分析、推理,才能得到最终答案,因此要求检索系统必须有一定的逻辑推理能力和自然语言理解功能。目前,较为复杂的事实信息检索课题仍需人工才能完成。 例如,要想得到中国发明专利历年的申请情况,国外来华申请历年所占的百分比是多少这一事实信息,就需要对历年的数据进行统计,然后进行比较分析,才能得出具体答案。

  25. 1.2 信息检索基础知识 信息检索的类型与特点 综上所述,书目信息检索是从存储有标题项、作者项、出版项或文摘项的检索系统中获取有关的信息线索,如利用各种目录、题录和文摘检索系统或书目数据库。全文信息检索是从存储整篇论文、专利说明书乃至整本著作的检索系统中获取全文信息,如利用各种论文全文数据库、专利说明书全文数据库系统。数据信息检索是从存储有大量数据、图表的检索系统中获取数值性信息,如利用各种手册、年鉴、图谱及表谱等检索系统。事实信息检索是从存储有大量知识信息、事实信息和数据信息的检索系统中获取某一事项的具体答案,如利用各种百科全书、年鉴和名录等检索系统。

  26. 1.2 信息检索基础知识 检索语言 • 概念:检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言实质上是检索和标引之间的约定语言。检索语言的使用是检索技能的一个重要方面。

  27. 1.2 信息检索基础知识 • 种类 1)描述文献外表特征的语言 题名(书名、篇名)、著者、文献序号(如ISBN号、专利号和报告号等)、文献类型和出版事项。 2)分类语言 按照一定的观点,以学科分类为基础,用逻辑分类的原理,结合信息的内容特征,运用概念划分的方法,按知识门类从总到分、从上到下、层层划分,逐级展开组成分类表,并以分类表来标引、存储信息和检索信息。目前,国际上通用的体系分类表有《国际十进分类法》(简称UDC),国内通用的体系分类表有《中国图书馆图书分类法》(简称《中图法》)。

  28. 1.2 信息检索基础知识 2)分类语言 《中图法》第四版分类体系组成及结构 1)基本部类和基本大类。基本部类,又称基本序列,由五大部类组成。基本大类,又称大纲,是在基本部类的基础上展开的第一级类目,由22个大类组成。 2)基本部类 A.马克思主义、列宁主义、毛泽东思想、邓小平理论 B.哲学、宗教 C.社会科学总论 D.政治、法律 E.军事 F.经济 G.文化、科学、教育、体育 H.语言 I.文字 J.艺术 K.历史、地理 N.自然科学总论 O.数理科学和化学 P.天文学、地球科学 Q.生物科学 R.医药、卫生 S.农业科学 T.工业技术 U.交通运输V.航空、航天 X.环境科学、安全科学 Z.综合性图书

  29. 1.2 信息检索基础知识 (2)分类语言 • 简表:在基本大类上展开的二级类目表,通过简表可了解分类概貌。 例:TB一般工业技术TL原子能技术TD矿业工程TM电工技术TE石油、天然气工业TN无线电电子学、电信技术TF冶金工业TP自动化技术、计算机技术TG金属学与金属工艺TQ化学工业TH机械、仪表工业TS轻工业、手工业TJ武器工业TU建筑科学TK能源与动力工程TV水利工程

  30. 1.2 信息检索基础知识 (3)主题语言 • 关键词语言(自然语言):直接从原文的标题、摘要或全文中抽选出来,具有实质意义的、未经规范化处理的自然语言词汇,作为信息存储和检索依据的一种检索语言。 • 叙词语言:以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。

  31. 1.2 信息检索基础知识 • 叙词的规范化处理 ① 词义规范: • 同义词(如计算机与电脑) 近义词(如实验与试验) 学名和俗名(如发动机与马达) 不同译名(激光与莱塞) 简称与全称(如中国与中华人民共和国) 不同写法(如X射线与爱克斯射线)等进行选择; • 对多义词、同形异义词进行限定说明 例:杜鹃既表示一种鸟,也表示一种花,就须限定说明:杜鹃(动物)、杜鹃(植物)。

  32. 1.2 信息检索基础知识 • 叙词的规范化处理 ② 词类规范。即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。 ③ 词形规范。即对词的繁简体、词序和字母符号等的规定。 • 上述几个方面的规范中,只有满足一词一义一型要求的词才有可能成为叙词。 • 国内用叙词语言编制的叙词表已有七八十种之多。最常用的有《汉语主题词表》、《化工汉语主题词表》、《机械工程主题词表》、《电子技术汉语主题词表》和《国防科学技术叙词表》等。常见的国外叙词表有《INSPEC叙词表》、《工程索引叙词表》和《工程与科学叙词表》等。

  33. 1.2 信息检索基础知识 常用的信息检索方法 • 1)追溯法:利用已经掌握的文献中所列举的参考文献,根据其所提供的线索追踪、溯源及查找更多相关文献的方法。 • 2)工具法:利用文献检索系统(工具),根据已经掌握的相关线索(如书名、刊名、篇名、作者姓名、主题词及分类号等),进行系统而全面的文献检索的方法。 • 3)循环法:采用追溯法与工具法交替进行的方式进行相关文献信息检索的方法。 • 4)浏览法:从本专业期刊或其他类型的原始文献中直接查阅文献资料的方法。

  34. 1.2 信息检索基础知识 信息检索与利用的主要功用 • 开阔视野,正确决策 通过全面、准确地信息检索,能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。适时作出正确决策,使所开展的工作取得最快、最有效的进展。 • 提高功效,事半功倍 高效进行的信息检索活动,能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。同时还能培养人们的自学能力、科学研究及鉴赏能力。

  35. 1.2 信息检索基础知识 信息检索与利用的主要功用 • 学习借鉴,推动创新 广泛深入地开展信息检索活动,不仅有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。 • 规避风险,维护权益 及时有效地开展信息检索,不仅可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。

  36. 1.2 信息检索基础知识 1.2.5 信息检索与利用的主要功用 • 科学评价,把握全局 随着信息资源的不断膨胀、信息技术的飞速发展,信息检索活动已经成为科研活动的重要组成部分。特别是在科学评价、权效鉴定、及时把握全局等方面的作为日益突出。

  37. 1.2 信息检索基础知识 信息检索效率评价 信息检索效率是研究信息检索原理的核心,是评价一个检索系统性能优劣的质量标准,它始终贯穿信息存储和检索的全过程。衡量检索效率的指标有查全率、查准率、漏检率、误检率和响应时间等。目前,人们通常主要以查全率和查准率这两个指标来衡量。 • 查全率(Recall ratio) • 利用检索系统进行某一课题检索时,检索出的相关信息量(w)与该系统信息库中存储的相关信息量(x)的比率再乘百分之百,称为查全率(R),用公式可表示为: • R=w/x×100%

  38. 1.2 信息检索基础知识 • 查准率(Precision ratio) • 利用检索系统进行某一课题检索时,检出的相关信息量(w)与检出信息总量(m)的比率再乘百分之百,称为查准率(P),用公式可表示为: • P=w/m×100%

  39. 1.2 信息检索基础知识 从检索要求来说,希望查全率和查准率都同时达到100%,即系统中存储的所有相关信息都被检索出(x=w=m),这是最为理想的效果。但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比,总会出现一些漏检和误检。 如果一个检索系统中与某一课题有关的信息共250条,实际检出400条,其中相关信息为200条,此次检索效率可计算为: • 查全率R=[200/250]×100%=80% • 查准率P=[200/400]×100%=50% 查全率和查准率之间存在着相互制约的现象,即提高查全率会使查准率下降,提高查准率会使查全率下降。因此,在实际检索过程中,必须同时兼顾查全和查准,不可片面追求某一方面。

  40. 1.2 信息检索基础知识 • 影响查全率的因素 文献库收录文献不全 索引词汇缺乏控制和专指性 词表结构不完整 词间关系模糊或不正确 标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等 检索策略过于简单 选词和进行逻辑组配不当 检索途径和方法太少 检索时不能全面地描述检索要求等。

  41. 1.2 信息检索基础知识 • 影响查准率的因素 索引词不能准确描述文献主题和检索要求 组配规则不严密 选词及词间关系不正确 标引过于详尽 组配错误,检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求 检索系统不具备逻辑“非”功能和反馈功能 检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。

  42. 1.3 计算机检索技术及方法 布尔检索 • 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”和逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

  43. 1.3 计算机检索技术及方法 • 布尔逻辑运算示意图如图1.1所示。

  44. 1.3 计算机检索技术及方法 例 以“计算机”(A表示)和“文献检索”(B表示)两个词来解释三种逻辑算符的含义。 ① “计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。 ② “计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。 ③ “计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。

  45. 1.3 计算机检索技术及方法 用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。

  46. 1.3 计算机检索技术及方法 截词检索 • 截词检索就是用截断词的一个局部进行的检索,并认为凡是满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断和中截断三种类型。 • 不同系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。

  47. 1.3 计算机检索技术及方法 截词检索 例 • 后截断,前方一致,如comput?表示computer、computers、computing等。 • 前截断,后方一致,如?computer表示minicomputer、microcomputers等。 • 中截断,中间一致,如?comput?表示minicomputer、microcomputers等。 截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

  48. 1.3 计算机检索技术及方法 词位检索 以数据库原始记录中的检索词之间的特定位置关系为对象的运算。词位检索是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术。这种检索技术增强了选词的灵活性,采用具有限定检索词之间位置关系功能的位置逻辑符进行组配运算,可弥补布尔检索技术只是定性规定参加运算的检索词在检索中的出现规律满足检索逻辑即为命中结果。

  49. 1.3 计算机检索技术及方法 1.邻位检索 例如,GAS(W) CHROMATOGRAPH表示检索结果为GAS CHROMATOGRAPH和GAS-CHROMATOGRAPH形式的才为命中。(nW)是由(W)衍生而来,如在两词之间使用“nW”,表示两词之间可插入n(n=1,2,3…)个词,但词序不能颠倒,它与(W)的唯一区别是,允许在两词之间插入n个词,因而,严密性略逊于(W)。例如,LASER(1W)PRINTER表示检索结果中具有“LASER PRINTER”、“LASER COLOUR PRINTER”和“LASER AND PRINTER”形式的均为命中记录。

  50. 1.3 计算机检索技术及方法 1.邻位检索 • 2)(N)与(nN)算符。两词之间使用(N)也表示其相邻关系,两词之间不能插入任何词,但两词词序可以颠倒。 • 例如,“WASTEWATER(N) TREATMENT”表示检索结果中具有“WASTEWATER TREATMENT”和“TREATMENT WASTEWATER”形式的均为命中记录。(nN)除具备(N)算符的功能外,不同之处是允许两词之间可插入n个词。

More Related