1.01k likes | 1.08k Views
中医药学文献主题标引. 张汝恩 中国中医科学院中医药信息研究 所数据中心数据室 2008-4-8. 分四部分 :. 第一部分:中医药学文献主题标引发展概况 第二部分:标引基本知识及 《 医学主题词注释字顺表 》 ( MeSH )的简介 第三部分: 《 中国中医药学主题词表 》 ( 2007 版)简介 第四部分:中医药学文献主题标引方法. 第一部分:中医药学文献主题标引发展概况.
E N D
中医药学文献主题标引 张汝恩 中国中医科学院中医药信息研究 所数据中心数据室 2008-4-8
分四部分: • 第一部分:中医药学文献主题标引发展概况 • 第二部分:标引基本知识及《医学主题词注释字顺表》 (MeSH)的简介 • 第三部分:《中国中医药学主题词表》(2007版)简介 • 第四部分:中医药学文献主题标引方法
第一部分:中医药学文献主题标引发展概况 • 1984年,我所开始中医药学文献数据库研制工作,同时着手中医药学专业主题词表的编纂。两项任务同步进行,使词表的编写牢牢扎根于文献标引实践,从而大大提高了词表的科学性与实用性。在吴兰成教授的带领下,经过近四年的反复实践、研究和编写,《中医药学主题词表》1987版终于问世。 • 该词表出版后获得广泛应用。此后经过数年的实践,在对近30万篇中医药学文献标引(目前己标引近80万篇)与检索应用基础上,于1996年出版了词表的修订版,并以机读版和印刷版两种形式出版,更名为《中国中医药学主题词表》。该表与其第一版相似和《汉语主题词表》以及美国国立医学图书馆《医学主题词表》(MeSH)相兼容,保证了其自身的科学性和适用性,成为目前使用最广、影响最大的一部中医药学主题词表。它是国内中西医药大型数据库建设的支撑。
自2002年以来,由于科技部重点课题-基础性工作的建库需要,中医药文献数据库的标引工作进行了大的变革,由一地标引人员局域网内的单点加工,变为全国范围内异地远程多点分中心加工。几年来,共有十几个分中心的科研人员参加了中医药文献的标引培训,并承担了大部分标引工作,完成了2005——2007年650种中西医期刊中的近20万篇的标引任务,同时使标引工作取得了重大的突破,培养了一支专业的中医药文献标引、审校队伍。自2002年以来,由于科技部重点课题-基础性工作的建库需要,中医药文献数据库的标引工作进行了大的变革,由一地标引人员局域网内的单点加工,变为全国范围内异地远程多点分中心加工。几年来,共有十几个分中心的科研人员参加了中医药文献的标引培训,并承担了大部分标引工作,完成了2005——2007年650种中西医期刊中的近20万篇的标引任务,同时使标引工作取得了重大的突破,培养了一支专业的中医药文献标引、审校队伍。 • 随着中医药文献标引工作的普及和发展,随着标引工作的不断深入和各种管理制度的完善,对我们的标引质量提出了更高的要求,如何保证标引的准确性、一致性,实现查全率、查准率,为提供全方位、多角度、快速准确的查询检索功能,是每个标引人员的首要任务和最终目的。
第二部分:什么是标引?它和检索的关系? • 一. 标引的概念 • 我国国家标准局GB3860-83《文献主题标引规则》对标引的定义是: • 标引--是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程。对文献给予分类号标识的过程称为分类标引;给予主题词标识的过程,称为主题标引。
二. 标引的类型 • 关于文献标引方式的种类,从不同角度,可以有不同的划分标准,每一种标引方式,都反映了某种特征属性的划分要求。 • 从文献的不同检索方式 • 从标引的不同动作者 • 从使用的检索标识规范化程度 • 从标引的不同组织形式 • 从文献标引结果是否恰当 • 从标引的深浅程度
三.标引和检索的关系 • 1.信息检索的概念 • 信息检索:狭义的解释就是指根据用户特定的情报需求,从检索系统中查找文献线索的过程。
2. 标引和检索的关系 • 标引和检索的关系: • 标引的目的是建立检索系统,而检索系统的建立也必须依赖于标引。所以,标引是手段,检索是目的,标引是为检索服务的。
《医学主题词注释字顺表》(MeSH)的简介 • 一. 主题词表的概念 • 二. MeSH的收词 • 三. MeSH的结构 • 四. 医学主题标引的总原则
一.主题词表的概念 • 主题词表的概念 • 主题词表也称叙词表。它是将文献标引人员或用户的自然语言转换成规范化名词术语的一种术语控制工具;是概括各门或某一门学科领域,并由语义相关、族性相关的术语组成的规范化的动态词典。 • 主题词表的作用 • 1.对主题词法的实施起管理作用。主题词表就是提供现行的、与事物概念唯一对应的、标准的标引—检索用词的权威性词表。 • 2.保证文献的作者、标引者和检索者之间用词一致。 • 3.编排和组织检索工具。
主题词表的结构 • 主题词表一般是由一个主表和若干个辅表构成。 • 主表是其主体,包括主题词的完整注释,可以独立存在。 • 辅表则是为了帮助主表的使用而编制的各种辅助索引,只能和主表配合使用。
二. 医学主题词注释字顺表(MeSH)的收词 • 《医学主题词表》是由NLM(美国国立医学图书馆)于1963年编制的世界知名的医学叙词表,其结构由一个主表和若干个辅表构成。 • 主表:医学主题词注释字顺表(英汉对照) • 辅表: • 医学主题词轮排表(仅有机读版) • 树状结构表(分类索引) • 汉语索引
一、收词数量和种类 • (一)数量 • 到2007年为止,共收录医学主题词22,997 个,入口词24,505个。 • (二)种类 • 1.叙词 • 2.款目词,也称入口词。 • 3.非主题词,也称类目词。 • 4.副主题词。
二、收词原则 1.稳定性:决定一旦作出,就应当尽量保持稳定。 2.正确性:符合本国语言的构词法及有关语言、文字方面的规定。 3.单义性 :指在专业范围内一个词汇应该只表示一个概念。 4.系统性:应有一定的层次结构,能够清晰地反映概念之间的基本关系。 5.简明性:尽可能简短明了、易读易记、易输易检。 6.成族性:例如:“皮炎”可以派生出“皮炎,剥脱性”、“皮炎,接触性”、“皮炎,刺激性”、“皮炎,光毒性”、“皮炎,光变应性”、“皮炎,药物性”、“皮炎,脂溢性”等词。 7.必须由专家推荐和审定 。
三、 医学主题词注释字顺表的结构 • 《医学主题词注释字顺表》是医学主题词表的主表,其中每个主题词下都有完整的主题词款目结构,款目结构是注释字顺表中主题词的基本结构单元,它包括起标目作用的主题词,树状结构号,注释系统和参照系统四部分。
MeSH树状结构表 为了显示主题词的学科体系,MeSH将字顺表中的主题词按学科从分类角度进行划分,编制了分类索引。该索引将22,997 个主题词划分成16个大类。再从大类展开,分为114个二级类目,各子类目下又逐级展开,层层划分,最多可达11级。
四、医学主题标引的总原则 (一)真实性必须标引在手的全文文献,而非文摘性文献。 (二)客观性必须忠实于原文,根据作者的意愿标引,而非标引者自己的判断。 (三)全面性标引深度要适当,分配的主题词应尽量全面反映文献各个方面的内容,以适应文献的实际情况和不同检索者的需求。 (四)准确性 包括分析准确,尤其是隐含概念的分析要准确;MeSH转换准确,即所选词必须是MeSH中的正式主题词,其书写形式、组配方式均要与MeSH一致。
(五)专指性根据文献论述的实质内容,在分析和转换主题概念时,首先选用词表中与之完全对应的、最专指、最恰当的主题词标引,即不随意扩大,也不特意缩小主题概念。(五)专指性根据文献论述的实质内容,在分析和转换主题概念时,首先选用词表中与之完全对应的、最专指、最恰当的主题词标引,即不随意扩大,也不特意缩小主题概念。 (六)一致性对于内容相同的文献,选词时同一标引员在不同的时间,不同标引员在同一或不同时间均应力争保持一致。
选词原则 • (一)首选专指词首先选用与原文献主题概念完全对应的、最专指的主题词。此条与基本原则的第5条专指性原则一致。 • (二)次选组配词 当无完全对应的主题词时,则选用主题词与副主题词组配或主题词与主题词组配的方式进行表达。 • (三)选择上位词或靠近义词(甚至反义词) 当不能采用组配标引时,可直接选用与文献主题概念临近的上位词或靠一个近义词标引。 • (四)自由词对于无法使用上述方法标引的概念,尤其是反映某学科领域最新进展的新概念、新术语等,可以直接采用自由词标引,但要将这些词输入标引工作单的自由词字段。
MeSH的局限性 1.质或量的程度(中毒除外)也不能反映副作用的作用程度。 2.时间关系(“时间因素”这个主题词除外),不能反映早或 晚,经常或罕见等概念。 3.原发与继发(肿瘤除外)。 4.较大或较小以及颜色等。 5.上或下,左或右的关系。 6.除了几种规定的手术术式有专指主题词(如…切除术,…造口术、…分流术等)外,不少术式均未列为主题词。 7.药物治疗的量。 8.有关中医中药的主题词极少。
概念组配 • 第一、 组配和概念组配 • 第二、 概念组配的方法和类型
第一 组配和概念组配 • 一、概念 (一)组配 在标引过程中,将两个或两个以上的主题词按照一定的逻辑关系加以组织以表达文献的复合主题内容,叫做组配。 • 例如:胃溃疡出血 胃溃疡 + 出血 腿骨折 腿 + 骨折
(二)概念组配 • 是指用能够确切表达复合概念词构成成份的各个主题词的组配,来表达复合概念含义的一种方法,它不着重于字面上是否与自然语言的复合词形相符。 • 例如: 腿骨折 • 腿损伤 + 骨折 • 腿 + 骨折 • 胃溃疡出血 • 胃溃疡 + 消化性溃疡出血 • 胃溃疡 + 出血
二、基本原理 • 所谓确切表达是要求组配所选的词必须是欲表达的复合概念最邻近的上位概念。即叙词要求的组配是概念组配,而非字面组配。 • 例: 腿骨折 • 腿损伤 + 骨折 • 胃溃疡出血 • 胃溃疡 + 消化性溃疡出血
第二 概念组配的方法 • 一、概念相交 • 是指两个表达相同性质(同类的)概念的主题词之间的逻辑组配。如两个词表达的概念都是器官,都是疾病,都是化学物质等等。 • 例如:病毒性心肌炎 • 病毒性心脏病(C类) • 心肌炎(C类) • 病毒信使核糖核酸 • 核糖核酸,病毒(D类) • 核糖核酸,信使(D类)
二、概念限定 • 也称方面组配。是指两个不同性质(不同类的)概念主题词之间的组配。其中一个表示事物,另一个则表示事物的某一方面。其组配方式可以是主题词和副主题词组配,也可以是主题词和主题词组配。 • 例如: 肾畸形、 锰中毒、 锌缺乏 • 主+副组配 肾/畸形,锰/中毒,锌/缺乏 • 主+主组配 • 食管异物 食管(A类)+ 异物(C类) • 贲门肿瘤 贲门(A类)+ 胃肿瘤(C类)
三、组配优先级 • 许多复合概念词在进行组配时常常可以同时采用上述两种组配方式。 • 例如:胰腺坏死,可以标引 • 胰腺疾病(C类)+ 坏死(C类) • 也可以标引 • 胰腺(A类)+ 坏死(C类) • 思考:哪组标引是正确的?为什么?
四、概念组配的类型 (1) 先组主题词 • 是指词表事先组配好的主题词类型。对于文献中出现频率较高的一些复合概念词,为保证检准率,词表事先将其组配好,标引时必须首选。 • 例如: • 阴虚火旺的病机探讨 阴虚火旺/中医病机
(2) 主题词+副主题词 • 是用副主题词限定主题词的组配类型,也称方面组配。这类组配仅用于概念限定。 • 例如: • 活血祛瘀药治疗胸痹探讨 • 胸痹/中医药疗法 • 活血祛瘀药/治疗应用 • 新腕踝针治疗消渴60例 • 消渴/针灸疗法 • 腕踝针/方法
(3) 主题词+主题词 • 是用两个或两个以上主题词的组配,来表达某一复合概念的类型,采用概念相交或概念限定均可,但首选概念相交。 • 例如: • 肾虚血瘀与衰老的关系 肾虚 血瘀 衰老 • 《伤寒论》救逆思想初探 《伤寒论》 回阳救逆
(4)主题词+特征词 • 是指需要特征词来补充组配的类型,也称主特组配。 • 例如: • 老年血虚证血液流变学变化规律初探 血虚/血液 血液流变学 老年人(特征词) 人类(特征词) • 女性肩凝症的辨证分型 肩凝症/诊断 辨证分型 女(雌)性(特征词) 人类(特征词)
副主题词概述 • 一、概念 • 副主题词: • 也称限定词。是指明主题词所论述的重点课题的自然范畴或通常发生的某一方面,对主题概念起限定作用的一类词汇。 • 截至2008年,MeSH拥有副主题词83个。副主题词加在主题词之后,两者之间用“/ ”分开。
二、类型 • (一)专题副主题词 • (二)地理副主题词 • (三)资料类型副主题词 • (四)语言副主题词 • 注意: 后三种副主题词类型仅用于图书编目, • 不用于期刊标引。
副主题词树形结构 • 同主题词一样,MeSH中的83个副主题词之间也有树形结构关系,其主要功能体现在以下两方面: • 便于查找专指的副主题词,缩小检索范围,减少噪声,提高查准率; • 通过树形结构,可以了解副主题词的族性关系,实现扩展检索,提高检全率。
副主题词扩展 治疗 膳食疗法 预防和控制 药物疗法 中医药疗法 放射疗法 中西医结合疗法 康复 气功疗法 护理 按摩疗法 外科学
副主题词标引原则 一、一般原则 (一)主题词多需组配副主题词 主题词与副主题词组配是文献标引中最常见的形式,约90%的文献在标引时应考虑组配合适的副主题词。 (二)严格遵守副主题词的适用范围 MeSH给每个副主题词都下了定义,并明确规定了副主题词允许组配的主题词范围。标引者必须根据其适用类目正确选择。 例:肾炎细胞学,哪一个正确?为什么? 肾炎/病理学 肾炎/细胞学
(三)严格遵守副主题词的特殊组配要求 除遵守副主题词一般规定外,还应遵守MeSH主题词款目下副主题词的特殊规定。理解不能组配, 仅仅成组配, 或无限定词等含义。 例如:心脏病理学,MeSH的解释是/病理学只能和心肌组配,不能和心脏组配,所以心脏病理学的标引结果应该是心肌/病理学。
(四)注意主题词和副主题词概念相同时的选择(四)注意主题词和副主题词概念相同时的选择 • 在MeSH中,所有的副主题词都有相对应的主题词,标引时应注意正确选择。如 • /诊断——诊断 • /病理学——病理学 • /外科学——外科,手术 • /放射疗法——放射疗法 • 通常情况下,上述这些词很少用作为主题词标引。
(五) 成对选择副主题词 为揭示多主题概念间的关系,许多副主题词需要成对标引。 例如:/药理学和/药物作用,/病因学和/并发症,/化学诱导和/副作用,/药物疗法和/治疗应用,/诊断和/诊断应用等等。 (六)选用最专指的副主题词 和主题词一样,副主题词也有等级结构,在标引时依据专指性原则,要首选与该概念最接近的副主题词。 • 例如:用CT诊断肝癌,哪一个正确?为什么? 肝肿瘤/诊断 肝肿瘤/放射摄影术
(七)杜绝强行组配 • 当与文献内容不符时,不要强行用意义不相关的或有疑问的副主题词与主题词进行组配。 • 例:灾害(G3)/利用,虽然/利用可以和G3类组配,但与灾害组配显然是不合逻辑的。 • (八)错误组配不如不组配 • 例:肝炎,乙型 /继发性就是错误组配,因为/继发性只能和C4肿瘤类组配。
二、组配细则 • (一)不能多级组配 • 多级组配是指一个主题词同时组配多个同类型的副主题词。标引要求的是单级组配,即一个主题词只能组配一个同类型的副主题词,不能连组。 • 例:溴中毒的治疗,不能标引为溴/中毒/治疗。
(二)不能越级组配 越级组配是指在标引时以粗代细,以上位副主题词代替下位或专指副主题词的组配。(选用最专指的副主题词) 例:氯丙嗪引起粒细胞缺乏,哪一个正确? 粒细胞缺乏/病因学 粒细胞缺乏/化学诱导
(五)同一主题,涉及多方面问题时,一般情况下,每个主题词最多允许组配3个副主题词(五)同一主题,涉及多方面问题时,一般情况下,每个主题词最多允许组配3个副主题词 • 具体规则如下: • 1.涉及的多个副主题词之间,若有树形结构关系,则选其上位副主题词并加权标引。 • 例:胆囊炎的药物治疗、膳食治疗和手术疗法 • 胆囊炎/治疗。 • 2.若无上下位关系,则仅将主题词加权,其余选<3个主题词与副主题词组配作NIM词标引。 • 例:心肌炎的病因、诊断和治疗 • 心肌炎 + 心肌炎/病因学 • + 心肌炎/诊断 • + 心肌炎/治疗
(六)不同主题涉及同一方面的问题时,组配共同的副主题词,并同时作为重点(六)不同主题涉及同一方面的问题时,组配共同的副主题词,并同时作为重点 • 例:类风湿性关节炎时膝关节的胶原降解 • 关节炎,类风湿性/代谢 • 膝关节/代谢 • 胶原/代谢 • (七)对于不能多级组配的概念,标引规则如下: • 1.主题词分别组配两个副主题词,前者作为重点 • 例:肝畸形的外科手术 • 肝/畸形 + 肝/外科学 • 因为肝可以和这两个副主题词组配。
第三部分:《中国中医药学主题词表》(2007版)简介第三部分:《中国中医药学主题词表》(2007版)简介 • 《中国中医药学主题词表》为国内外第一部被医学及中医药学信息界广泛采用的中医药学专业主题词表。词表以其科学性、适用性以及与MeSH词表的兼容性,获得了用户好评。它的诞生,标志着中医药学信息处理和信息服务跨入了电子时代,并以其独特的学术内涵为中医药学信息产品在国内外的推广和应用创造了重要条件,提供了技术保障。 • 《中国中医药学主题词表》的研制起步于七十年代,发展于八十年代。早在1976年,国家科委领导的七四八工程《汉语主题词表》中, 已将中医药学内容置于重要位置。这部大型综合性词表的中医药学部分是由中国中医科学院王雪苔教授等人经过数年的努力拟定的,它首开中医药学主题词表的先河,在这领域迈出可喜的第一步。
例如: • 中国医学科学院信息研究所CBMDISC、中国中医科学院TCMLARS等的建库工作,全国医学期刊索引的编制,MeSH词表的补充和完善都是以本词表为依据。 • 1997年中、港、台两岸三地信息专家研讨会充分肯定该词表的科学性和先进性。 • 本词表还获得中华中医药学会2003-2004年度科学技术学术著作一等奖。 • 本词表的出版也引起全球最大的医学图书馆—美国国立医学图书馆的关注,该馆的标引专家Thelma Charen及MeSH词表组的领导Stuart J.Nelson分别为本词表的1996年版及2007年版写序,同时MeSH词表组参照本词表内容为新版MeSH增加了一些有关中医药及针灸方面的主题词。
任何主题词表都应该是动态的,必须随着学科发展不断更新和完善。本词表于1998—2000年根据标引人员的要求曾对中药相关主题词作了部分增删改,但因限于条件未能对词表进行全面修订。1996年版词表无论在词汇完备性、词语标准化、范畴划分的科学性及主题词英译名的准确性方面都有待改进。任何主题词表都应该是动态的,必须随着学科发展不断更新和完善。本词表于1998—2000年根据标引人员的要求曾对中药相关主题词作了部分增删改,但因限于条件未能对词表进行全面修订。1996年版词表无论在词汇完备性、词语标准化、范畴划分的科学性及主题词英译名的准确性方面都有待改进。 • 2004年12月份中医药管理局将修订1996年版《中国中医药学主题词表》列为标准化研究的项目。自立项以来,词表修订编委会广泛调研了国内外医学主题词表的理论、方法和经验,在进行大量词频统计及用户反馈意见分析后,充分吸收各家词表之所长,在基本保持原词表的体系结构及与MeSH兼容外,重点在以下方面进行了研究和修订:
1. 增补新词,删除个别低频词: • 在收词方面要求做到主题词能够反映学科发展的新动态、新概念和新词汇,并兼顾到边缘学科和交叉学科的发展。2007版词表正式主题词达到8308个,入口词5585个,正式主题词比原词表增加了39.22%,入口词比原入口词增加将近3.89倍。 • 2. 词语标准化和规范化研究主要采取两种途径: • 一个途径是引用已有的国家标准、行业标准或国际标准,如针灸穴位名称采用了国际标准,耳针穴位和地理名词采用了国家标准,病证名称采用国家或行业标准等。 • 另一个途径是参照权威词典、参考书和中医药学新版教材词汇以及核心医学期刊中最常见、使用频率最高、概念最明确的词语选用来增加新词或修订原有用词。
3. 对1996版词表的词条重新审定: • 对词义、英译名、注释等都进行了补充,使每一个主题词均有明确的定义、标引注释、历史注释、检索注释和编目注释。尤其着重词义审查,1996版词表词义注释较简单,此次修订对主题词的定义尽量做到准确、具权威性并且有明确的出处。 • 4. 调整部分树形结构设置使之更趋科学合理: • 此次修订范畴表的调整重点是TA类中医解剖学和TG类生物科学两个词树。 • TA类中医解剖学——汇集的词语有些属于中医学基本概念,将之归属于中医解剖学不甚合适,故TA类目更名为中医形态。 • TG类生物科学——此类目下汇集的都是中医药学基础理论方面的词汇及中医学相关学科的主题词,命名不够贴切,故将TG类目更名为中医药学及其相关学科。同时增加一个新类目TJ类工艺学与中药技术,将TE5类中药其它技术及TE8类中药制药工艺的部分词汇合并后也归入此类目。
5. 完善主题词的参照系统: • 2007版词表保留用代项参照及参项参照而取消了反参项参照。为方便查询增加了入口词。 • 6. 继续保持一表多用的功能: • 本词表既适用于数据库的文献主题标引和检索,又适用于编制医药学期刊主题索引,而且可用于图书主题编目,同时在一定程度上还可起到中医药学简明词典的作用。 • 7. 保持与国际权威性医学主题词表(MeSH)的兼容性: • 如体系结构与其基本保持一致,收录MeSH中的全部中医词及部分中药植物科属词及中药化学成分词。药理作用主题词与MeSH词型一致,但在词尾加(中药)以示区别。