1 / 24

A Syntax-Driven Bracketing Model for Phrase-Based Translation

A Syntax-Driven Bracketing Model for Phrase-Based Translation. Deyi Xiong ACL 2009 Speaker: slacker. 研究动机 解决方法 实验 总结. 研究动机 解决方法 实验 总结. 研究动机. 短语模型存在的问题: 没有充分地利用句法信息 没有充分到考虑到翻译过程中存在短语黏合的现象. 利用句法信息 硬限制:只允许完全符合句法树的翻译和调 序,降低了翻译性能。 Koehn et.al 2003

Download Presentation

A Syntax-Driven Bracketing Model for Phrase-Based Translation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A Syntax-Driven Bracketing Model for Phrase-Based Translation Deyi Xiong ACL 2009 Speaker: slacker

  2. 研究动机 • 解决方法 • 实验 • 总结

  3. 研究动机 • 解决方法 • 实验 • 总结

  4. 研究动机 • 短语模型存在的问题: • 没有充分地利用句法信息 • 没有充分到考虑到翻译过程中存在短语黏合的现象

  5. 利用句法信息 • 硬限制:只允许完全符合句法树的翻译和调 序,降低了翻译性能。 Koehn et.al 2003 • 软限制:对不符合句法树的翻译和调序进行计数惩罚。在一定程度上提高翻译性能。 Chiang 2005 Marton and Resnik 2008 Cherry 2008

  6. 短语黏合性 Fox 2002 Cherry 2008 如果源短语在翻译后仍然保持连续,那么该源短语是可括号化的(bracketable),否则称之为不可括号化的(unbracketable)。

  7. 例子 中国 的 经济 和 教育 economy and education in China

  8. 例子 中国 的 经济 和 教育 economy and education in China

  9. 在翻译过程中,翻译可括号化的短语比翻译不可括号化的短语将更为合理。在翻译过程中,翻译可括号化的短语比翻译不可括号化的短语将更为合理。 • 例子 中国 的 经济 和 教育 economy in China and education

  10. 研究动机 • 解决方法 • 实验 • 总结

  11. 解决方法 • 句法驱动括号模型(syntax-driven bracketing,SDB)。 • 从训练语料库中自动学习模型,能够融入了更多的句法信息 • 在给定的上下文句法信息中,能够更好地衡量短语是否具有黏合性。

  12. 包括Unary SDB + Binary SDB UnSDB:预测独立短语是否可括号化 BiSDB: 预测相邻短语是否可括号化

  13. 采用最大墒的对SDB建模,融入丰富的句法特征

  14. 实例抽取 • 从对齐语料库中抽取二元括号实例 取定源端相邻的两个短语,如果它们在目标端也相邻,或者中间词对空,那么这就是二元可括号化实例,反之就是不可括号化实例。 • 从二元括号实例中得到一元括号实例

  15. 模型具体特征 • 规则特征(Rule Features) • 路径特征(Path Features) • 组块边界匹配特征(Constituent Boundary Matching Features)

  16. IP VP VP NP ADVP NP NN AD VV AS NN NN 警方 已经 封锁 了 爆炸 现场 S1 S2 S

  17. IP VP VP NP ADVP NP NN AD VV AS NN NN 警方 已经 封锁 了 爆炸 现场 S1 S2 S

  18. IP VP-RC VP VP-I ADVP-M VP NP ADVP NP NN AD VV AS NN NN 警方 已经 封锁 了 爆炸 现场 S1 S2 S

  19. 研究动机 • 解决方法 • 实验 • 总结

  20. 实验 • 设置 • 解码器:Bruin (BTG)+ XP+ UniSDB / BiSDB • 语料:FBIS(24w-15250) • 对齐:grow-diag-final • 语言模型:giga xinhua 4元 • 评价指标:大小写敏感 bleu-4

  21. 结果

  22. 研究动机 • 解决方法 • 实验 • 总结

  23. 总结 • SDB模型简单而且有效 简单就是美! • SDB可以适用于其它模型,例如,层次短语模型

  24. Thank you!

More Related