1 / 28

2 008 EPO-SIPO 联合自动机器翻译国际研讨会 SIPO 专利文献汉 - 英机器翻译系统的研发与应用

2 008 EPO-SIPO 联合自动机器翻译国际研讨会 SIPO 专利文献汉 - 英机器翻译系统的研发与应用. 王 丹 国家知识产权局中国专利信息中心 2008 年 11 月 4 日. 提 纲. SIPO 汉-英机器翻译系统的研发 路线图 机器翻译方法 机器翻译的应用与测试 当前的努力与未来的计划. 汉字 : 一种独特的语言. 机器翻译的发展现状. 用户希望得到 : 通用技术领域 ( 任意文本 ) 高质量 ( 人工翻译水平 ) 全自动 ( 无需用户干预 ) 当前 , 以上目标中的任意两个可以实现 , 但无法同时实现三者

kata
Download Presentation

2 008 EPO-SIPO 联合自动机器翻译国际研讨会 SIPO 专利文献汉 - 英机器翻译系统的研发与应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2008 EPO-SIPO联合自动机器翻译国际研讨会SIPO专利文献汉-英机器翻译系统的研发与应用 王 丹 国家知识产权局中国专利信息中心 2008年11月4日

  2. 提 纲 • SIPO汉-英机器翻译系统的研发路线图 • 机器翻译方法 • 机器翻译的应用与测试 • 当前的努力与未来的计划

  3. 汉字:一种独特的语言

  4. 机器翻译的发展现状 • 用户希望得到: • 通用技术领域(任意文本) • 高质量(人工翻译水平) • 全自动 (无需用户干预) • 当前,以上目标中的任意两个可以实现,但无法同时实现三者 • FA HQ: 基于知识的机器翻译 (KBMT) • GP HQ: 机助人译 (有效提高翻译效率) • FA GP: 本次研讨会的关注点?

  5. 汉语机器翻译系统研发路线图 2005.6-2008.4 2008.4-2012 ? Before 2001.6 2001.6-2005.6 Phase1 Phase 2 Phase3 Phase 4 MT Testing & Updating Machine Translation (MT) Manual Translation Machine-Aided Human Translation done done done doing

  6. 提 纲 • SIPO汉-英机器翻译系统的研发路线图 • 机器翻译方法 • 机器翻译的应用与测试 • 当前的努力与未来的计划

  7. 专利文献汉英机器翻译的难点(1) • 汉语与印欧语言的明显不同之处: (1)汉语缺乏印欧语言那样丰富的形态 (2)汉语的语素、单词和词组之间的界限模糊 (3)汉语的词类及其语法成分之间、句子成分和语义关系之间没有明确的一一对应关系

  8. 专利文献汉英机器翻译的难点(2) • 复杂长句较为常见 • 专利文献中的特殊风格 • 难以进行可获得可读翻译结果的分词工作 因而带来—— 专利文献机器翻译中的不确定性和歧义性问题

  9. 系统架构

  10. 混合策略的系统 • 机器翻译的质量要求:较为关键 • 由研发原型向生产性机译系统转变的要求 • 语义分析方法:对语言的更深层次理解 • 基于语料的元素:自动或半自动途径构建的语言资源

  11. 专利惯用句式的模板知识 本发明涉及… …及其制备方法 包括以下步骤: … 一种用于治疗…的药物 The invention relates to… …and process for preparation. comprises steps of … A medicament for treating …

  12. 语义分析的关注点:句类 句类分析系统 知 识 库 概念和语句表述模式 语 义 网 络

  13. 长句翻译实例 • 在一实施变型中,用作第一临时锁定部件的所述凸肩表现为如在所述目镜组件的一第一表面上呈蘑菇形状的一端柱。 • In one implemented the modification, the said convex shoulder that is used as first interim locking parts showed as if be a newel post of the shape of pestering on a first surface of said eyepiece subassembly. • 随着网络容量的增加和信号传输与交换速率的不断提高,由于集成电路加工工艺和半导体材料本身的限制,电子学的瓶颈效应将日趋明显。 • Along with the increase of network capacity and the continuous improvement of signal transmission and exchange rate, because the restriction of integrated circuit process technology and semiconductor materials itself, the bottleneck effect of electronics will become clear day by day.

  14. 提 纲 • SIPO汉-英机器翻译系统的研发路线图 • 机器翻译方法 • 机器翻译的应用与测试 • 当前的努力与未来的计划

  15. 专利文献机机器翻译的应用 • 典型应用对象设定 • 用户不懂汉语 • 需要获取汉语专利文献 • 需要理解检索到的文献 • 翻译界面需支持以英文方式浏览文献

  16. 英文著录项目及摘要 机器翻译系统与专利检索系统的集成(1) 汉语专利文献 专利机器 翻译引擎 检索结果 检索 引擎 英文 检索

  17. 机器翻译系统与专利检索系统的集成(2) • SIPO的英文检索系统现可实现: • 布尔式检索 • 检索结果的细化功能 • 法律状态可检索 • 命令行检索方式

  18. 英文检索界面

  19. 专利摘要(人工翻译)

  20. preservation of layout information

  21. 专利文献汉英机器翻译实用系统的实现 • 翻译速度:不低于每分钟8000个汉字 • 全部词条数:约1百万条 • 系统健壮性 • 翻译质量:大多数专业术语可被识别,对简单句和常见的复杂句的翻译结果具有可读性 • 有利于用户了解中国专利文献的内容

  22. 机器翻译测试系统发布以收集用户反馈 • 发布日:2008年4月25日 • 免费使用 • 收集相关用户反馈信息: • 翻译错误类型 (术语,语法,惯用表达方式, 语义或其他类型) • 英文表述不当 • 关于系统改进的想法或建议

  23. 提 纲 • SIPO汉-英机器翻译系统的研发路线图 • 机器翻译方法 • 机器翻译的应用与测试 • 当前的努力与未来的计划

  24. 用机器翻译促进人工翻译作业 • 翻译记忆用户作为前端 • 机器翻译作为后端 • 翻译人员由机器翻译系统中获得更多的匹配语句

  25. 机器翻译系统输出受益于翻译记忆 • 各因素作用于翻译引擎 • 收录翻译记忆中的完全匹配语句 • 低投入——低质量 • 预期可逐步取得改进,如术语添加

  26. 下一步工作 • 核心:改进机器翻译的可读性 • 通过采用中心自然语言处理新技术优化翻译引擎 • 不断对词库进行更新 • 构建跨语言检索平台,实现对检索式机器翻译的集成 • 对专利文献在其他的语言对之间实现跨语言检索

  27. 未来方向:多引擎的机器翻译系统 • 对每一输出同时采用多个翻译引擎 • 由各独立的翻译引擎输出结果组合出正确译文 • 对翻译难点的不同解决方案

More Related