150 likes | 305 Views
ISCAS机器翻译和系统融合评测系统. 张大鲲 孙乐 中国科学院软件研究所 dakun04@iscas.ac.cn. 大纲. 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 概述. 训练语料受限的汉英机器翻译 基于短语的统计机器翻译系统 4 元语言模型 3 元大小写敏感语言模型进行大小写还原 利用规则对数字进行处理. 系统流程. 训练. GIZA++ 双向词对齐. 短语抽取 5 个概率. 预处理. 平行语料. 全部小写化. 数词识别 与替换. 4 元 语言模型. 后处理. Beam 搜索 解码.
E N D
ISCAS机器翻译和系统融合评测系统 张大鲲 孙乐 中国科学院软件研究所 dakun04@iscas.ac.cn
大纲 • 汉英新闻领域翻译评测 • 概述 • 系统流程 • 预处理和后处理 • 测试结果 • 系统融合评测
概述 • 训练语料受限的汉英机器翻译 • 基于短语的统计机器翻译系统 • 4元语言模型 • 3元大小写敏感语言模型进行大小写还原 • 利用规则对数字进行处理
系统流程 训练 GIZA++ 双向词对齐 短语抽取 5个概率 预处理 平行语料 全部小写化 数词识别 与替换 4元 语言模型 后处理 Beam 搜索 解码 3元大小写敏感 语言模型 数词翻译 替换 翻译输出
特征 • 短语翻译概率 • 词汇化概率 • 反向短语翻译概率 • 反向词汇化概率 • 短语惩罚概率(2.718) • 词语惩罚(目标语言句子长度) • 目标语言模型,4元
预处理和后处理 • 中文语料中的英文和英文语料全部小写 • 中文全角字符转换为半角 • ABC123→ ABC123 • Stanford Chinese Word Segmenter分词 • 数字单独处理
训练语料 短语数量:1600万
开发集调整参数 WP – 词语惩罚 PT – 翻译模型概率(包括词汇化概率和短语惩罚) DW – 调序的权重 LW – 语言模型权重 ML – 最大的短语长度 LD – 调序的限制范围 MS – 栈大小 TL – 允许的最多翻译候选项 489句 4个参考答案 BLEU = 0.1039
系统融合 • 主要方法 (Rosti et al. 2007) • 句子级融合 • 重评分,输出最好的句子 • 短语级融合 • 构造新的短语表,计算概率,重新解码 • 词级融合 • 词对齐,形成词图,最优路径
重评分 • 统计在候选翻译中出现的所有n-gram个数 • 计算每个句子中命中的个数 n=7 权重,利用开发集训练
测试 • 使用提供的10个单位提交的17个系统的翻译结果(没有使用系统U14的结果)
总结 • 汉英新闻领域翻译评测 • 训练语料受限 • 基于短语的翻译系统 • 4元语言模型 • 利用规则对数字进行处理 • 系统融合评测 • 句子级的融合方法 • 利用n-gram进行重评分
谢谢! Thanks!