slide1 n.
Download
Skip this Video
Download Presentation
非连续短语翻译研究

Loading in 2 Seconds...

play fullscreen
1 / 39

非连续短语翻译研究 - PowerPoint PPT Presentation


  • 102 Views
  • Uploaded on

非连续短语翻译研究. 张家俊 宗成庆 2012.11.4. 提纲. 统计机器翻译中的非连续短语问题 非连续短语的分类 非连续短语对翻译质量的影响的全面分析 基于非连续短语的规则过滤 总结. 提纲. 统计机器翻译中的非连续短语问题 非连续短语的分类 非连续短语对翻译质量的影响的全面分析 基于非连续短语的规则过滤 总结. 统计机器翻译中的非连续短语问题. 基于连续短语的翻译. 统计机器翻译中的非连续短语问题. 非连续短语的引入 譬如: 遭受 X 袭击  hit by X. 统计机器翻译中的非连续短语问题. 非连续短语的引入

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '非连续短语翻译研究' - daria-fleming


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

非连续短语翻译研究

张家俊 宗成庆

2012.11.4

slide2
提纲
  • 统计机器翻译中的非连续短语问题
  • 非连续短语的分类
  • 非连续短语对翻译质量的影响的全面分析
  • 基于非连续短语的规则过滤
  • 总结
slide3
提纲
  • 统计机器翻译中的非连续短语问题
  • 非连续短语的分类
  • 非连续短语对翻译质量的影响的全面分析
  • 基于非连续短语的规则过滤
  • 总结
slide5
统计机器翻译中的非连续短语问题
  • 非连续短语的引入
    • 譬如:遭受 X 袭击  hit by X
slide6
统计机器翻译中的非连续短语问题
  • 非连续短语的引入
    • 譬如:遭受 X 袭击  hit by X

非连续短语的引入有效提升了翻译质量!

slide7
提纲
  • 统计机器翻译中的非连续短语问题
  • 非连续短语的分类
  • 非连续短语对翻译质量的影响的全面分析
  • 基于非连续短语的规则过滤
  • 总结
slide8
非连续短语的分类
  • 根据源语言端、目标语言端是否连续划分
    • 仅源端非连续
      • 遭受 X 袭击  hit by X
    • 仅目标端非连续
      • 考虑 X  take X into account
    • 两端非连续
      • 与 X1有 X2 have X2 with X1
slide9
非连续短语的分类
  • 对层次短语规则的划分
slide10
非连续短语的分类
  • 对非连续短语翻译作用的一些研究发现
    • 在汉语到英语的翻译中,不管是利用兼容非连续短语的短语翻译模型、层次短语模型还是基于句法树的翻译模型,都一致发现仅源端非连续的翻译规则对翻译质量的提高要远远好于允许目标端非连续的翻译规则
    • 仅源端非连续
      • 遭受 X 袭击  hit by X
slide11
提纲
  • 统计机器翻译中的非连续短语问题
  • 非连续短语的分类
  • 非连续短语对翻译质量的影响的全面分析
  • 基于非连续短语的规则过滤
  • 总结
slide12
非连续短语对翻译质量影响的全面分析
  • 疑问
    • 仅源端非连续的翻译规则是否在英语到汉语的翻译中也更有效?是否在其他语言对上也更有效?
    • 非连续短语规则是否在所有语言对之间的翻译都帮助很大?
slide13
非连续短语对翻译质量影响的全面分析
  • 实验设置
    • 翻译语言对
      • 汉语-英语
      • 德语-英语
      • 法语-英语
      • 西班牙-英语
slide14
非连续短语对翻译质量影响的全面分析
  • 实验数据规模
    • 汉语-英语
      • 训练集:190万句对
      • 开发集:汉语英语 MT NIST06, 英语汉语 MT NIST08前800句
      • 测试集:汉语英语 MT NIST05 (test-1) MT NIST08 (test-2), 英语汉语 MT NIST08的后1059句 (test-1),汉英测试集MT NIST05 (test-2)
slide15
非连续短语对翻译质量影响的全面分析
  • 实验数据规模
    • 其他语言对
      • 训练集:德语-英语、法语-英语 148万句对, 西班牙语-英语 147万句对
      • 开发集:WMT2009 第一部分开发集Devset2009-a
      • 测试集: WMT2009 第二部分开发集Devset2009-b (test-1), WMT2009的测试集Testset2009 (test-2)
slide16
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

汉语-英语

slide17
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

汉语-英语

slide18
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

汉语-英语

slide19
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

法语-英语

slide20
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

法语-英语

slide21
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

法语-英语

slide22
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

德语-英语

slide23
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

德语-英语

slide24
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

德语-英语

slide25
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

西班牙语-英语

slide26
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

西班牙语-英语

slide27
非连续短语对翻译质量影响的全面分析
  • 实验结果与分析

西班牙语-英语

slide28
非连续短语对翻译质量影响的全面分析
  • 结论
    • 若源端非连续在一个翻译方向上更有效,那么目标端非连续在相反的翻译方向上更有效
    • 非连续短语并不是在任何语言对的翻译中都帮助很大
slide29
提纲
  • 统计机器翻译中的非连续短语问题
  • 非连续短语的分类
  • 非连续短语对翻译质量的影响的全面分析
  • 基于非连续短语的规则过滤
  • 总结
slide30
基于非连续短语规则过滤
  • 基于非连续短语的发现
    • 非连续短语规模庞大,但绝大多数对翻译质量没有帮助
slide31
基于非连续短语规则过滤
  • 基于功能的翻译规则细分
    • 完全词汇化短语规则(LPR)
    • 调序规则(RR),譬如:uX  Xu
    • 源端非连续规则(SDR)
    • 目标端非连续规则(TDR)
    • 两端非连续规则
      • 严格两端非连续规则(SBDR),uXvu’Xv’(u,v和u’,v’需交叉对齐)
      • 一个非终结符的复合规则(CR1NT)
      • 两个非终结符的复合规则(CR2NT)
slide32
基于非连续短语规则过滤
  • 实验结果

西班牙语英语

slide33
基于非连续短语规则过滤
  • 实验结果

过滤70%的规则数目!

slide34
基于非连续短语规则过滤
  • 实验结果

过滤84%的规则数目!

slide35
基于非连续短语规则过滤
  • 实验结果

汉语英语

slide36
基于非连续短语规则过滤
  • 实验结果

过滤20%的规则数目!

slide37
提纲
  • 统计机器翻译中的非连续短语问题
  • 非连续短语的分类
  • 非连续短语对翻译质量的影响的全面分析
  • 基于非连续短语的规则过滤
  • 总结
slide38
总结
  • 非连续短语在不同语言对的翻译中作用差别很大
  • 源端非连续短语、目标端非连续短语对翻译的作用基本符合对称现象
  • 根据非连续短语的分析,基于功能的规则过滤方法可以有效地去除大量无用规则