1 / 19

厦门大学第四届机器翻译研讨会评测系统描述

厦门大学第四届机器翻译研讨会评测系统描述. 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008 年 11 月 北京. 提纲. 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结. 提纲. 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结. 概述. 厦门大学参加了 汉英新闻领域机器翻译(开放) 汉英新闻领域系统融合 英汉新闻领域机器翻译(受限) 英汉科技领域机器翻译(受限) 使用的模型 汉英机器翻译:短语,短语 + 规则

hija
Download Presentation

厦门大学第四届机器翻译研讨会评测系统描述

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 厦门大学第四届机器翻译研讨会评测系统描述 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008年11月 北京

  2. 提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结

  3. 提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结

  4. 概述 • 厦门大学参加了 • 汉英新闻领域机器翻译(开放) • 汉英新闻领域系统融合 • 英汉新闻领域机器翻译(受限) • 英汉科技领域机器翻译(受限) • 使用的模型 • 汉英机器翻译:短语,短语+规则 • 英汉机器翻译:短语+规则、规则 使用的融合方法和系统融合评测中使用的相同

  5. 提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结

  6. 机器翻译系统概要(1) • 统计翻译系统 • 短语模型 • 对数线性模型 • 融合特征:短语翻译概率(正向/反向)、词汇化短语翻译概率(正向/反向)、语言模型、长度惩罚因子、短语惩罚因子 • 单调解码,动态规划方法 • 汉英机器翻译评测中,我们的短语翻译系统则结合了基于组块的词语调序模型

  7. 机器翻译系统概要(2) • 规则翻译系统 • 基本模块:词法分析句法分析词义消歧译文生成 • 采用依存文法描述英语和汉语,文法由程序来描述 • 词典条目大约10万 • 结合了部分TM技术 • 没有专门针对这次评测进行调整

  8. 提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结

  9. 系统融合方法概要(1) • 早在1994年就有研究者研究多引擎翻译系统。 • 多引擎系统的研究可以粗略地分成两类: • 简单地在各系统的输出中选出一个最佳的结果。 • 从各系统的输出中各选取最佳片段并构成新的结果。 • 由于融合粒度更细,第二类方法常常可以获得更好的融合效果。 • 第二类系统融合技术需要解决的两个问题: • 必须从候选翻译中抽取出与原文相对应的翻译片段。 • 必须在这些可用的翻译片段中筛选并组合成新的翻译结果。

  10. 候选翻译 新句对 单语语料库 平行语料库 原文 短语模型训练模块 语言模型训练模块 短语表 语言模型 短语翻译解码模块 译文 系统融合方法概要(2) • 参考文献 • Chen Yu, Andreas Eisele, Christian Federmann, Eva Hasler, Michael Jellinghaus, and Silke Theison. 2007. Multi-Engine Machine Translaiton with an Open-Source Decoder for Statistical Machine Translaiton. In: Proceedings of the Second Workshop on Statistical Machine Translation, Prague, 193-196.

  11. 提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结

  12. 评测数据与结果(1) • 使用的外部工具 • GIZA++工具包对双语语料进行词对齐,训练模式是15H53545 • 使用SRI语言模型工具包来训练语言模型 • 使用CRF++工具包来训练组块分析器(汉英测评中)。

  13. 评测数据与结果(2) • 汉英新闻机器翻译评测 • 数据 • 结果

  14. 评测数据与结果(3) • 汉英新闻系统融合评测 • 根据诸系统在ssmt2007测试集上的成绩仅挑选了前4名的系统参与融合 • 采用的数据情况同汉英新闻机器翻译评测 • 结果 • constrast系统使用和汉英新闻机器翻译评测相同的参数,primary系统则将长度惩罚因子参数增加到原来的两倍。

  15. 评测数据与结果(4) • 英汉新闻机器翻译评测 • 数据情况 • 结果

  16. 评测数据与结果(5) • 英汉科技机器翻译评测 • 数据情况 • 结果 • xmu-constrast-memt2系统仅使用科技语料

  17. 提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结

  18. 小结 • 本次评测我们参加的系统在技术上没有太多的进步。 • 本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。

  19. 谢谢大家! 陈毅东 史晓东 {ydchen, mandel}@xmu.edu.cn

More Related