390 likes | 537 Views
非连续短语翻译研究. 张家俊 宗成庆 2012.11.4. 提纲. 统计机器翻译中的非连续短语问题 非连续短语的分类 非连续短语对翻译质量的影响的全面分析 基于非连续短语的规则过滤 总结. 提纲. 统计机器翻译中的非连续短语问题 非连续短语的分类 非连续短语对翻译质量的影响的全面分析 基于非连续短语的规则过滤 总结. 统计机器翻译中的非连续短语问题. 基于连续短语的翻译. 统计机器翻译中的非连续短语问题. 非连续短语的引入 譬如: 遭受 X 袭击 hit by X. 统计机器翻译中的非连续短语问题. 非连续短语的引入
E N D
非连续短语翻译研究 张家俊 宗成庆 2012.11.4
提纲 • 统计机器翻译中的非连续短语问题 • 非连续短语的分类 • 非连续短语对翻译质量的影响的全面分析 • 基于非连续短语的规则过滤 • 总结
提纲 • 统计机器翻译中的非连续短语问题 • 非连续短语的分类 • 非连续短语对翻译质量的影响的全面分析 • 基于非连续短语的规则过滤 • 总结
统计机器翻译中的非连续短语问题 • 基于连续短语的翻译
统计机器翻译中的非连续短语问题 • 非连续短语的引入 • 譬如:遭受 X 袭击 hit by X
统计机器翻译中的非连续短语问题 • 非连续短语的引入 • 譬如:遭受 X 袭击 hit by X 非连续短语的引入有效提升了翻译质量!
提纲 • 统计机器翻译中的非连续短语问题 • 非连续短语的分类 • 非连续短语对翻译质量的影响的全面分析 • 基于非连续短语的规则过滤 • 总结
非连续短语的分类 • 根据源语言端、目标语言端是否连续划分 • 仅源端非连续 • 遭受 X 袭击 hit by X • 仅目标端非连续 • 考虑 X take X into account • 两端非连续 • 与 X1有 X2 have X2 with X1
非连续短语的分类 • 对层次短语规则的划分
非连续短语的分类 • 对非连续短语翻译作用的一些研究发现 • 在汉语到英语的翻译中,不管是利用兼容非连续短语的短语翻译模型、层次短语模型还是基于句法树的翻译模型,都一致发现仅源端非连续的翻译规则对翻译质量的提高要远远好于允许目标端非连续的翻译规则 • 仅源端非连续 • 遭受 X 袭击 hit by X
提纲 • 统计机器翻译中的非连续短语问题 • 非连续短语的分类 • 非连续短语对翻译质量的影响的全面分析 • 基于非连续短语的规则过滤 • 总结
非连续短语对翻译质量影响的全面分析 • 疑问 • 仅源端非连续的翻译规则是否在英语到汉语的翻译中也更有效?是否在其他语言对上也更有效? • 非连续短语规则是否在所有语言对之间的翻译都帮助很大?
非连续短语对翻译质量影响的全面分析 • 实验设置 • 翻译语言对 • 汉语-英语 • 德语-英语 • 法语-英语 • 西班牙-英语
非连续短语对翻译质量影响的全面分析 • 实验数据规模 • 汉语-英语 • 训练集:190万句对 • 开发集:汉语英语 MT NIST06, 英语汉语 MT NIST08前800句 • 测试集:汉语英语 MT NIST05 (test-1) MT NIST08 (test-2), 英语汉语 MT NIST08的后1059句 (test-1),汉英测试集MT NIST05 (test-2)
非连续短语对翻译质量影响的全面分析 • 实验数据规模 • 其他语言对 • 训练集:德语-英语、法语-英语 148万句对, 西班牙语-英语 147万句对 • 开发集:WMT2009 第一部分开发集Devset2009-a • 测试集: WMT2009 第二部分开发集Devset2009-b (test-1), WMT2009的测试集Testset2009 (test-2)
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 汉语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 汉语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 汉语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 法语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 法语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 法语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 德语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 德语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 德语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 西班牙语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 西班牙语-英语
非连续短语对翻译质量影响的全面分析 • 实验结果与分析 西班牙语-英语
非连续短语对翻译质量影响的全面分析 • 结论 • 若源端非连续在一个翻译方向上更有效,那么目标端非连续在相反的翻译方向上更有效 • 非连续短语并不是在任何语言对的翻译中都帮助很大
提纲 • 统计机器翻译中的非连续短语问题 • 非连续短语的分类 • 非连续短语对翻译质量的影响的全面分析 • 基于非连续短语的规则过滤 • 总结
基于非连续短语规则过滤 • 基于非连续短语的发现 • 非连续短语规模庞大,但绝大多数对翻译质量没有帮助
基于非连续短语规则过滤 • 基于功能的翻译规则细分 • 完全词汇化短语规则(LPR) • 调序规则(RR),譬如:uX Xu • 源端非连续规则(SDR) • 目标端非连续规则(TDR) • 两端非连续规则 • 严格两端非连续规则(SBDR),uXvu’Xv’(u,v和u’,v’需交叉对齐) • 一个非终结符的复合规则(CR1NT) • 两个非终结符的复合规则(CR2NT)
基于非连续短语规则过滤 • 实验结果 西班牙语英语
基于非连续短语规则过滤 • 实验结果 过滤70%的规则数目!
基于非连续短语规则过滤 • 实验结果 过滤84%的规则数目!
基于非连续短语规则过滤 • 实验结果 汉语英语
基于非连续短语规则过滤 • 实验结果 过滤20%的规则数目!
提纲 • 统计机器翻译中的非连续短语问题 • 非连续短语的分类 • 非连续短语对翻译质量的影响的全面分析 • 基于非连续短语的规则过滤 • 总结
总结 • 非连续短语在不同语言对的翻译中作用差别很大 • 源端非连续短语、目标端非连续短语对翻译的作用基本符合对称现象 • 根据非连续短语的分析,基于功能的规则过滤方法可以有效地去除大量无用规则
THANKS! Q&A