1 / 15

ISCAS机器翻译和系统融合评测系统

ISCAS机器翻译和系统融合评测系统. 张大鲲 孙乐 中国科学院软件研究所 dakun04@iscas.ac.cn. 大纲. 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 概述. 训练语料受限的汉英机器翻译 基于短语的统计机器翻译系统 4 元语言模型 3 元大小写敏感语言模型进行大小写还原 利用规则对数字进行处理. 系统流程. 训练. GIZA++ 双向词对齐. 短语抽取 5 个概率. 预处理. 平行语料. 全部小写化. 数词识别 与替换. 4 元 语言模型. 后处理. Beam 搜索 解码.

Download Presentation

ISCAS机器翻译和系统融合评测系统

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ISCAS机器翻译和系统融合评测系统 张大鲲 孙乐 中国科学院软件研究所 dakun04@iscas.ac.cn

  2. 大纲 • 汉英新闻领域翻译评测 • 概述 • 系统流程 • 预处理和后处理 • 测试结果 • 系统融合评测

  3. 概述 • 训练语料受限的汉英机器翻译 • 基于短语的统计机器翻译系统 • 4元语言模型 • 3元大小写敏感语言模型进行大小写还原 • 利用规则对数字进行处理

  4. 系统流程 训练 GIZA++ 双向词对齐 短语抽取 5个概率 预处理 平行语料 全部小写化 数词识别 与替换 4元 语言模型 后处理 Beam 搜索 解码 3元大小写敏感 语言模型 数词翻译 替换 翻译输出

  5. 特征 • 短语翻译概率 • 词汇化概率 • 反向短语翻译概率 • 反向词汇化概率 • 短语惩罚概率(2.718) • 词语惩罚(目标语言句子长度) • 目标语言模型,4元

  6. 预处理和后处理 • 中文语料中的英文和英文语料全部小写 • 中文全角字符转换为半角 • ABC123→ ABC123 • Stanford Chinese Word Segmenter分词 • 数字单独处理

  7. 训练语料 短语数量:1600万

  8. 开发集调整参数 WP – 词语惩罚 PT – 翻译模型概率(包括词汇化概率和短语惩罚) DW – 调序的权重 LW – 语言模型权重 ML – 最大的短语长度 LD – 调序的限制范围 MS – 栈大小 TL – 允许的最多翻译候选项 489句 4个参考答案 BLEU = 0.1039

  9. 测试结果

  10. 系统融合 • 主要方法 (Rosti et al. 2007) • 句子级融合 • 重评分,输出最好的句子 • 短语级融合 • 构造新的短语表,计算概率,重新解码 • 词级融合 • 词对齐,形成词图,最优路径

  11. 系统融合

  12. 重评分 • 统计在候选翻译中出现的所有n-gram个数 • 计算每个句子中命中的个数 n=7 权重,利用开发集训练

  13. 测试 • 使用提供的10个单位提交的17个系统的翻译结果(没有使用系统U14的结果)

  14. 总结 • 汉英新闻领域翻译评测 • 训练语料受限 • 基于短语的翻译系统 • 4元语言模型 • 利用规则对数字进行处理 • 系统融合评测 • 句子级的融合方法 • 利用n-gram进行重评分

  15. 谢谢! Thanks!

More Related