1 / 34

张运良 朱礼军 乔晓东

汉语科技词系统 理念与实践. 张运良 朱礼军 乔晓东. 2009-09-09. 大纲. 汉语科技词系统提出的背景 汉语科技词系统的内涵 汉语科技词系统的理念 汉语科技词系统的发展 新能源汽车领域词系统构建 系统展示 汉语科技词系统展望. 大纲. 汉语科技词系统提出的背景 汉语科技词系统的内涵 汉语科技词系统的理念 汉语科技词系统的发展 新能源汽车领域词系统构建 系统展示 汉语科技词系统展望. 背景 (1). 科技信息资源数量上的剧增,组织和管理需求增加 面向机器的科技信息内容处理需求越来越突出 自动分类 自动标引 自动内容分析 信息检索

Download Presentation

张运良 朱礼军 乔晓东

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 汉语科技词系统 理念与实践 张运良 朱礼军 乔晓东 2009-09-09 信息技术支持中心 知识组织与知识工程研究室

  2. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  3. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  4. 背景(1) • 科技信息资源数量上的剧增,组织和管理需求增加 • 面向机器的科技信息内容处理需求越来越突出 • 自动分类 • 自动标引 • 自动内容分析 • 信息检索 • 语义交换…… • 期望解决知识组织系统建设中的问题 • 编制过程中知识丢失、维护机制落后、词更新周期长、开放程度不够、难以获取,难以满足信息加工和软件开发需求 信息技术支持中心 知识组织与知识工程研究室

  5. 背景(2) • 我国目前还缺乏一个科技词汇知识的构建、管理、维护工具的基础架构和服务平台 • 开展汉语科技词系统研究工作 • 中国科学技术信息所所重点工作项目 • 国家“十一五”支撑计划课题《知识组织系统的集成及服务体系研究与实现》 • 2007年开始,一直延续 信息技术支持中心 知识组织与知识工程研究室

  6. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  7. 汉语科技词系统的内涵(1) • “汉语科技词系统”是一种词汇知识组织形式,由词汇内容资源与相应的建设、管理、使用、维护平台和接口工具组成。 • 以汉语科技主题词表、分类法、术语表为基础 • 以各类中英文语言知识库为借鉴,真实语料和领域专家并重 重大变化 设计目标 应用场景 • 词汇知识内容 技术体系 应用服务方式 信息技术支持中心 知识组织与知识工程研究室

  8. 汉语科技词系统的内涵(2) • 设计目标 • 实现科技词汇知识的开放加工和共享使用 • 为中文科技信息资源的内容处理提供词汇层面的语义支撑 • 应用场景 • 面向计算机应用程序 • 提供有关汉语科技词汇的各类信息 • 词汇知识内容 • 用代属分参关系细化 • 关系和属性区分 • 分类信息和注释信息 信息技术支持中心 知识组织与知识工程研究室

  9. 汉语科技词系统的内涵(3) • 技术体系 • (半)自动构建和管理工具:动态、及时更新 • 规范的程序访问接口和独立于计算平台的词汇输出格式 :词汇构建过程和应用过程的封装 • 应用服务方式 • 应用范围:内容分析、知识管理、知识抽取和知识服务等 • 三类应用方式 • 通过访问接口调用来访问汉语科技词系统的内容 • 通过下载或者授权使用汉语科技词系统的内容数据 • 基于web service 技术的网络调用 信息技术支持中心 知识组织与知识工程研究室

  10. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  11. 汉语科技词系统的理念(1) • 协同构建 • 一部词表由不同背景的建设者共建 • 一个人可以参与多部词表的构建 • 高容错性 • 机器自检+人工审核 • 允许一定程度的错误和不一致 • 草根文化 • wiki模式 • 任何人都可以组织创建一部词表 • 知识加工流程与控制 信息技术支持中心 知识组织与知识工程研究室

  12. 汉语科技词系统的理念(2) • 共享 • 软件平台 • 词表成果(全部/部分) • 词条等级 • Free • Professional • Enterprise • 服务接口(数据对象层和业务逻辑层) 信息技术支持中心 知识组织与知识工程研究室

  13. 汉语科技词系统的理念(3) • 多级用户控制 • 管理员 • 专家 • 整体编辑 • 局部编辑 • 浏览用户 信息技术支持中心 知识组织与知识工程研究室

  14. 汉语科技词系统的理念(4) • 条块分割的知识建设和控制 • 词条基本信息 • 关系 • 属性 • 注释 • 分类 • 上下兼容 • 叙词表 • 本体 信息技术支持中心 知识组织与知识工程研究室

  15. 汉语科技词系统的理念(5) • Term向Object(包含Term和Phrase )扩展 • 交互格式 • 数据库 • XML • SKOS • OWL • 关系和属性可配置,分类可选择——随需而变 信息技术支持中心 知识组织与知识工程研究室

  16. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  17. 汉语科技词系统的发展(1) • 三个阶段 • 多词表管理系统 • 叙词表构建和修订更新系统 • 汉语科技词系统 • 两个系统 • 词表管理+构建修订系统=>企业级开发 • 词系统构建系统=>企业级开发 • 两类对象 • 知识对象:词条、关系、属性、分类、注释等 • 管理对象:用户、权限、邮件消息、日志 信息技术支持中心 知识组织与知识工程研究室

  18. 汉语科技词系统的发展(2) • 重点处理的关键问题 • 几类角色 • 浏览用户 • 编辑(局部、整体) • 领域专家 • 管理员 • 各类知识的状态 • 3个状态的变化:草稿候选已审 • 编辑权限 • 词条、词关系、词属性、词注释的编辑是独立的,分别进行 • 但也会发生一些制约关系 信息技术支持中心 知识组织与知识工程研究室

  19. 汉语科技词系统的发展(3) 形成一套建设流程 1.制定规划 2.资源收集,建立语料库 3.分类方法选择构建,关系空间和属性空间确定 4.初始骨架抽取 5.人工补充、修订和完善 6.总体审核和发布 信息技术支持中心 知识组织与知识工程研究室

  20. 信息技术支持中心 知识组织与知识工程研究室

  21. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  22. 新能源汽车领域词系统构建(1) • 语料分析与专家意见 • 语料选择是否得当,直接影响构建新能源汽车领域科技词系统的质量。 • 新能源领域语料采集、建库和整理工作。 • 语料库来源包括:主题词表、本领域文献的近年来常用检索词、本领域相关的知识百科和术语解释、本领域相关的期刊和专利文献、本领域近年来国家科技计划的课题指南和申报材料等。 信息技术支持中心 知识组织与知识工程研究室

  23. 信息技术支持中心 知识组织与知识工程研究室

  24. 新能源汽车领域词系统构建(2) 信息技术支持中心 知识组织与知识工程研究室

  25. 新能源汽车领域词系统构建(3) • 属性空间分析 • 自底向上分析 • 11个一级类 • 52个二级类 • 关系空间分析 • 自顶向下 • 自底向上 • 15个一级类 • 76个二级类 信息技术支持中心 知识组织与知识工程研究室

  26. 信息技术支持中心 知识组织与知识工程研究室

  27. 新能源汽车领域词系统构建(4) • 分类概率计算 • 基于语料词频加权统计 • 标题、关键词、摘要、正文 • 标题、摘要、权利要求项、正文 信息技术支持中心 知识组织与知识工程研究室

  28. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  29. 系统展示 • 词表管理+构建修订系统 • 词系统构建系统 • http://168.160.18.252/vocabulary/ • 其它工具 信息技术支持中心 知识组织与知识工程研究室

  30. 大纲 • 汉语科技词系统提出的背景 • 汉语科技词系统的内涵 • 汉语科技词系统的理念 • 汉语科技词系统的发展 • 新能源汽车领域词系统构建 • 系统展示 • 汉语科技词系统展望 信息技术支持中心 知识组织与知识工程研究室

  31. 展望(1) 一个开放组织、共享访问、动态灵活的汉语科技词系统是实现网络信息资源整合、跨库浏览与检索的重要支撑,也是优化信息组织、实现资源共享、支撑信息内容智能处理、提供知识化科技信息服务的重要前提 随着软件工程、自然语言处理、人工智能相关领域的进一步深入发展,汉语科技词系统相关研究作为情报科学、计算机科学、语言学、认知科学的一个重要的交叉点,必将迎来一个研究、开发与服务的蓬勃发展期。

  32. 展望(2) • 下一步工作: • 不断研究词系统的开放框架和软件平台,进一步完善汉语科技词系统 • 进一步整合已经开发的词和关系发现工具、词和关系的可视化工具、自动检查和自动更新工具,辅助构建工具等,形成功能完善的汉语科技词系统工具体系 • 不断推进开放、共建、共享的科技词汇知识构建和服务应用 信息技术支持中心 知识组织与知识工程研究室

  33. 致谢 敬请各位专家批评指正! 欢迎试用汉语科技词系统! 欢迎为汉语科技词系统改进提意见! http://168.160.18.252/vocabulary/ zhangyl@istic.ac.cn zhulj@istic.ac.cn qiaox@istic.ac.cn

More Related