190 likes | 331 Views
厦门大学第四届机器翻译研讨会评测系统描述. 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008 年 11 月 北京. 提纲. 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结. 提纲. 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结. 概述. 厦门大学参加了 汉英新闻领域机器翻译(开放) 汉英新闻领域系统融合 英汉新闻领域机器翻译(受限) 英汉科技领域机器翻译(受限) 使用的模型 汉英机器翻译:短语,短语 + 规则
E N D
厦门大学第四届机器翻译研讨会评测系统描述 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008年11月 北京
提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结
提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结
概述 • 厦门大学参加了 • 汉英新闻领域机器翻译(开放) • 汉英新闻领域系统融合 • 英汉新闻领域机器翻译(受限) • 英汉科技领域机器翻译(受限) • 使用的模型 • 汉英机器翻译:短语,短语+规则 • 英汉机器翻译:短语+规则、规则 使用的融合方法和系统融合评测中使用的相同
提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结
机器翻译系统概要(1) • 统计翻译系统 • 短语模型 • 对数线性模型 • 融合特征:短语翻译概率(正向/反向)、词汇化短语翻译概率(正向/反向)、语言模型、长度惩罚因子、短语惩罚因子 • 单调解码,动态规划方法 • 汉英机器翻译评测中,我们的短语翻译系统则结合了基于组块的词语调序模型
机器翻译系统概要(2) • 规则翻译系统 • 基本模块:词法分析句法分析词义消歧译文生成 • 采用依存文法描述英语和汉语,文法由程序来描述 • 词典条目大约10万 • 结合了部分TM技术 • 没有专门针对这次评测进行调整
提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结
系统融合方法概要(1) • 早在1994年就有研究者研究多引擎翻译系统。 • 多引擎系统的研究可以粗略地分成两类: • 简单地在各系统的输出中选出一个最佳的结果。 • 从各系统的输出中各选取最佳片段并构成新的结果。 • 由于融合粒度更细,第二类方法常常可以获得更好的融合效果。 • 第二类系统融合技术需要解决的两个问题: • 必须从候选翻译中抽取出与原文相对应的翻译片段。 • 必须在这些可用的翻译片段中筛选并组合成新的翻译结果。
候选翻译 新句对 单语语料库 平行语料库 原文 短语模型训练模块 语言模型训练模块 短语表 语言模型 短语翻译解码模块 译文 系统融合方法概要(2) • 参考文献 • Chen Yu, Andreas Eisele, Christian Federmann, Eva Hasler, Michael Jellinghaus, and Silke Theison. 2007. Multi-Engine Machine Translaiton with an Open-Source Decoder for Statistical Machine Translaiton. In: Proceedings of the Second Workshop on Statistical Machine Translation, Prague, 193-196.
提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结
评测数据与结果(1) • 使用的外部工具 • GIZA++工具包对双语语料进行词对齐,训练模式是15H53545 • 使用SRI语言模型工具包来训练语言模型 • 使用CRF++工具包来训练组块分析器(汉英测评中)。
评测数据与结果(2) • 汉英新闻机器翻译评测 • 数据 • 结果
评测数据与结果(3) • 汉英新闻系统融合评测 • 根据诸系统在ssmt2007测试集上的成绩仅挑选了前4名的系统参与融合 • 采用的数据情况同汉英新闻机器翻译评测 • 结果 • constrast系统使用和汉英新闻机器翻译评测相同的参数,primary系统则将长度惩罚因子参数增加到原来的两倍。
评测数据与结果(4) • 英汉新闻机器翻译评测 • 数据情况 • 结果
评测数据与结果(5) • 英汉科技机器翻译评测 • 数据情况 • 结果 • xmu-constrast-memt2系统仅使用科技语料
提纲 • 概述 • 机器翻译系统概要 • 系统融合方法概要 • 测评数据与结果 • 小结
小结 • 本次评测我们参加的系统在技术上没有太多的进步。 • 本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。
谢谢大家! 陈毅东 史晓东 {ydchen, mandel}@xmu.edu.cn