1 / 35

统计机器翻译的纵深探索

统计机器翻译的纵深探索. 张家 俊 模式识别国家重点实验室 中国科学院自动化研究所 共同合作者:宗成庆、周玉、翟飞飞. What we focus on?. 模型. 建模深度. 应用. 应用. 语言范围. 领域范围. 建模深度. 基于词语映射. 枪手. 被. 警方. 击毙. gunmen. by. police. killed. the gunmen. were. killed. by. the. police. 基于短语映射. 枪手. 被. 警方. 击毙. the gunmen.

maili
Download Presentation

统计机器翻译的纵深探索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 统计机器翻译的纵深探索 张家俊 模式识别国家重点实验室 中国科学院自动化研究所 共同合作者:宗成庆、周玉、翟飞飞

  2. What we focus on?

  3. 模型 建模深度 应用 应用 语言范围 领域范围

  4. 建模深度 基于词语映射 枪手 被 警方 击毙 gunmen by police killed the gunmen were killed by the police

  5. 基于短语映射 枪手 被 警方 击毙 the gunmen by the police were killed the gunmen were killed by the police

  6. 基于层次短语映射 X3 X3 (X1被 X2击毙, X1 were killed by X2 ) X1 X2 枪手 被 警方 击毙 the gunmen were killed by the police X2 X1 X3

  7. 建模深度 如何建模? 中间语言 第一关注点 语义 语义 句法树-句法树模型 句法 句法 层次短语模型 串-句法树模型 句法树-串模型 没有深入理解一个句子 形式句法 形式句法 短语-短语模型 短语 短语 词-词模型 目标语言 源语言 7

  8. 基于双语平行语料 应用 模型 this conference is held in changsha . 这次 会议 在 长沙 举行 。 … … … … where is the dining hall ? 餐馆 在 哪里 ? 应用 应用 不同语言对 不同领域

  9. 基于双语平行语料 应用 模型 不同领域: 不同语言对: 收集双语平行语料 收集双语平行语料 应用 应用 不同语言对 不同领域 能否从两种语言的单语语料中直接学习翻译模型? 第二关注点

  10. What we are doing now?

  11. 建模深度 如何建模? 中间语言 第一关注点 语义 语义 句法树-句法树模型 句法 句法 层次短语模型 串-句法树模型 句法树-串模型 没有深入理解一个句子 形式句法 形式句法 短语-短语模型 短语 短语 词-词模型 目标语言 源语言 11

  12. 基于谓词论元结构转换的翻译模型 • 机器翻译的目标 • 对于源语言句子,生成与其语义对等的目标语言句子 • 谓词论元结构 • 描述了句子的骨架和语义结构 • 相比于句法结构,源语言和目标语言在谓词论元结构上更趋于一致 • 基于谓词论元结构的转换能够最大限度地保持语义结构关系

  13. 三步骤框架 • 源语言端谓词论元结构获取 • 谓词论元结构转换 • 翻译源语言端各论元,填充目标语言端结构

  14. 源语言端谓词论元结构获取

  15. 谓词论元结构换转

  16. 论元翻译与填充

  17. 论元翻译与填充

  18. 参考文章 • Machine Translation by Modeling Predicate Argument Structure Transformation (COLING 2012), FeifeiZhai, Jiajun Zhang, Yu Zhou and ChengqingZong. • Handling Ambiguities of Bilingual Predicate-Argument Structures for SMT (ACL 2013), FeifeiZhai, Jiajun Zhang, Yu Zhou and ChengqingZong

  19. 基于双语平行语料 应用 模型 不同领域: 不同语言对: 收集双语平行语料 收集双语平行语料 应用 应用 不同语言对 不同领域 能否从两种语言的单语语料中直接学习翻译模型? 第二关注点

  20. 从单语语料中学习翻译模型 Philipp Koehn Kevin Knight 研究表明,对于相似的语言对,能够从相同领域的单语语料中学习双语词典!

  21. 新浪报道西甲 BBC报道英超 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. 下半场刚开始,法布雷加斯头球前顶,桑切斯突入禁区右侧18码处挑射,皮球打中横梁弹回。这是巴萨本赛季第31次打中门框。巴萨第53分钟锁定胜局,蒂亚戈传球,特略面对洛文斯突破至小禁区左侧边缘低射远角入网,3-0。这是他本赛季第8粒入球。第61分钟,罗德里右路传中,阿尔维斯解围不及时,蒙塔内斯禁区边缘内抢断后劲射被巴尔德斯没收。

  22. 新浪报道西甲 BBC报道英超 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. 下半场刚开始,法布雷加斯头球前顶,桑切斯突入禁区右侧18码处挑射,皮球打中横梁弹回。这是巴萨本赛季第31次打中门框。巴萨第53分钟锁定胜局,蒂亚戈传球,特略面对洛文斯突破至小禁区左侧边缘低射远角入网,3-0。这是他本赛季第8粒入球。第61分钟,罗德里右路传中,阿尔维斯解围不及时,蒙塔内斯禁区边缘内抢断后劲射被巴尔德斯没收。

  23. 新浪报道西甲 BBC报道英超 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. 下半场刚开始,法布雷加斯头球前顶,桑切斯突入禁区右侧18码处挑射,皮球打中横梁弹回。这是巴萨本赛季第31次打中门框。巴萨第53分钟锁定胜局,蒂亚戈传球,特略面对洛文斯突破至小禁区左侧边缘低射远角入网,3-0。这是他本赛季第8粒入球。第61分钟,罗德里右路传中,阿尔维斯解围不及时,蒙塔内斯禁区边缘内抢断后劲射被巴尔德斯没收。

  24. 基于单语语料的翻译模型学习 概率化双语词典 翻译概率学习 双语短语集合 短语翻译模型 两种语言同领域单语语料 调序模型学习

  25. 基于单语语料的翻译模型学习 目标语言语料倒排表示

  26. 基于单语语料的翻译模型学习 电子 温度 传感 设备 (1,7), (212,0), …, (100000,33), (4, 19), (212,1), …, (29120, 8), (120, 28), (212, 3), …, (98320, 12) 根据句子序号与词序号进行排序 (1,7), (4, 19), (120, 28), (212,0), (212,1), (212, 3), …, (29120, 8), …, (98320, 12), (100000,33),… 对任一源语言短语,根据双语词典,收集候选译文位置集合

  27. 基于单语语料的翻译模型学习 (1,7), (4, 19), (120, 28), (212,0), (212,1), (212, 3), …, (29120, 8), …, (98320, 12), (100000,33),… 对未对齐词(212,2)进行概率平滑 (212,0), (212,1), (212,2), (212, 3) 可靠性度量 短语对(电子 温度 传感 设备, electronic temperature sensing devise) 搜索最佳候选译文

  28. 双语短语获取 vs. 双语词典获取 • 抓取调序信息: 资源 的 利用率 ||| the use ratio of resources 移动 通信 终端 的 ||| of the mobile communication terminal 改善 用户 体验 的 技术 效果 ||| the effects of improving user experience 本 发明 的 目的 在于 ||| the purpose of the invention is to • 获取习惯用语: 制造 成本 低 , 使用 方便 ||| low manufacturing cost, is convenient to use 辨识 真伪 的 ||| to distinguish the true from the false • 发现未登录词翻译: 电子 温度 传感 设备 ||| electronic temperature sensing devise 发光 二极管 芯片 的 ||| of the light-emitting diode chip

  29. 参考文章 • Learning a Phrase-based Translation Model from Monolingual Data with Application to Domain Adaptation (ACL 2013), Jiajun Zhang and ChengqingZong.

  30. What we think about future SMT?

  31. Abstract Meaning Representation 模型 语义建模 发布了AMR语义库 COLING 2012, ACL 2013 应用 应用 语言范围 领域范围 MalteNuhn Sujith Ravi ACL 2013 三篇文章关于利用单语语料的解密(词典学习)!

  32. 基于单语语料的翻译模型学习 设计高效的算法从单语语料中 考虑语言的结构差异,譬如汉英 概率化双语词典 翻译概率学习 双语短语集合 短语翻译模型 两种语言同领域单语语料 调序模型学习

  33. 模型 建模深度 应用 应用 语言范围 领域范围 统计机器翻译与翻译记忆的深度结合

  34. 在限定领域,利用越来越深入的知识 • 对于缺乏双语资源的领域或语言对,充分利用单语语料信息 • 博采众长,统计机器翻译与其他技术的结合

  35. 谢谢大家! Q&A!

More Related