160 likes | 280 Views
基于本体论体系的中医药 一体化语言系统 中国中医研究. 一、研究目的与意义 : 现状:中医药学科历经千年,产生了大量的 概念与术语 ,多种语义词汇差异,阻碍了中医药数字化的发展。 目的与意义 : 以中医药学科体系为核心,遵循中医药学科理论体系,建立中国第一个计算机化的、可持续发展的、包含中医药及其相关学科语言的中医药学语言集成系统,形成中医药学的语言系统平台 。 本系统的建成将为中医药学的标准化工作、为中医药学数据的文本挖掘、为中医药学多源数据库歧义词检索及语义检索奠定基础 。. 二、研究思路:. 以中医药学科的整体系统为基础; 利用 本体论 的方法;
E N D
基于本体论体系的中医药 一体化语言系统 中国中医研究
一、研究目的与意义:现状:中医药学科历经千年,产生了大量的概念与术语,多种语义词汇差异,阻碍了中医药数字化的发展。目的与意义: 以中医药学科体系为核心,遵循中医药学科理论体系,建立中国第一个计算机化的、可持续发展的、包含中医药及其相关学科语言的中医药学语言集成系统,形成中医药学的语言系统平台。 本系统的建成将为中医药学的标准化工作、为中医药学数据的文本挖掘、为中医药学多源数据库歧义词检索及语义检索奠定基础。
二、研究思路: • 以中医药学科的整体系统为基础; • 利用本体论的方法; • 借鉴(UMLS)美国一体化语言系统的思路; • 根据中医药语言学特点,建立大型语料数据 库,并设计语义类型与语义关联关系。 • 将语言学与中医药学知识体系有机的结合在一起,建立中医药一体化语言系统。
三、方法:从四方面入手研究 以中医药为核心,其他学科叠加:中医药信息化 过程中使用与利用的所有相关的学科与概念、术语 中医药一体化语言系统 中医药 中医药语言结构体系一体化:建立、融入 中医药术语表达方式一体化:词条属性 中医药概念定义与释义形式一体化:回答是 什 么、关联关系是什么、学科中的位置是什么 相同概念词一体化:无论文字、图表、正名与 异名、正确与误用 一体化 海量语言术语集成为基础:制定收词范围、顺序 规范化网状结构解释概念的语义归类与关联: 多水平控制:词汇、形态、语义、语用; 本体论与诠释论相结合 语言 设计分层结构与网状立体结构; 符合语言体系,限定与约定复杂度; 采用归纳定性,将同类事物合并; 参照UMLS的整体结构,保持兼容性与包容性; 系统保持灵活性与可扩展性 ; 系统 中医药为核心 Protégé 程序
四、研究内容: 标准 四种可控 词表的 结构比较 词典 语料库 (收词40万) 总体系统 设计 教材 概念词 属性定义 临床术语 设计词条 属性结构 其他 完成概念词 属性设计 语用关系 (5万) 建立中医药 一级分类体系 (13) 语义表达 以中医五、六版 教材的学科分类 为依据 定义实现 中医药概念的 语义类型设计 (105种) 事件与物质 二大类的结构 展开 中医学科结构 立体表达关系 等级关系 相关关系(时 间、空间、概 念、功能、物 理) 中医药语义的 关联关系 (58种)
五、组织机构与管理 全国十三家大学、科研单位(100) 任务 分配 加工编辑
六、研究成果: • 建立了六个专题的中医药一体化语言系统(中医基础、治则治法、诊断、疾病、方剂、中药) ; • 进行了本系统结构设计; • 建立了实现本系统的技术标准与操作手册; • 完成了三个专题的结构设计;中医基础部分已召开了专家论证会;
七、应用与推广: 语言集成与规范 建立数据 库基础语言平台 检索查询应用工具 数据挖掘与知识再现支撑条件
小结: • ( 1)首次提出中医药学一体化语言系统设计思想与原则; • (2)首次提出中医药学一体化语言系统的选词原则与词条属性定义; • (3)首次提出中医药学一体化语言系统的语义类型与语义关联设计。 • (4)解决了海量数据的收集与编辑加工。 本项研究在国内领域属于先进技术;成果将广泛应用于中医药标准化建设、中医药数据利用等领域中,具有良好的应用前景 。
中医药 语言 现状 (现代文献收词 已超过60万条) 多样性(同名异物) (异物同名) 无标准化(缺少国标) 无统一机读词库 缺少系统结构
借鉴美国UMLS(医学一体化语言系统) • 医学文献计算机化60年 • 1986年起步开始研制医学语言一体化。 • 超级叙词表 • 语义网络 • 情报源图谱 • 专家词典 • 2002年(第13版)收录了60 多个生物医学受控词表中776940个概念共210万个词
本体论 • 哲学上的概念,用于描述事物的本质。 • 在近一、二十年来,本体论已被计算机领域所采用,用于知识表达、知识共享。 • 本体论是一种回答:存在是什么?