1 / 13

利用压平的双语句法树进行短语重排序

利用压平的双语句法树进行短语重排序. 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28. 引言. 翻译从词一级过渡到短语一级 短语的选择问题,短语翻译概率 短语和短语之间的重排序问题 Pharaoh :简单的重排序惩罚 层次型模型:利用“长”短语对“短”短语进行调序 ITG/BTG :组合所有可能的情况. he said that □□□□ he said , □□□□ □□□□ , he said. 他 说 ,□□□□ 他 说 ,□□□□ 他 说 ,□□□□. 中文短语 英文短语.

flynn
Download Presentation

利用压平的双语句法树进行短语重排序

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28

  2. 引言 • 翻译从词一级过渡到短语一级 • 短语的选择问题,短语翻译概率 • 短语和短语之间的重排序问题 • Pharaoh:简单的重排序惩罚 • 层次型模型:利用“长”短语对“短”短语进行调序 • ITG/BTG:组合所有可能的情况

  3. he said that □□□□ he said , □□□□ □□□□ , he said . 他 说 ,□□□□ 他 说 ,□□□□ 他 说 ,□□□□ 中文短语 英文短语 当一个中文短语和一个英文短语组成短语翻译对时,其在句子中和临近短语对的相对位置基本是固定的,即,当“他 说 ,”翻译成“he said that”时,它和后面的短语对永远是顺序的组合关系。 他 说 , he said that 他 说 , he said , 他 说 , , he said .

  4. 引言 • 构造一个模型,可以有效的表示这种组合关系 • 能够自动从语料中学习 • 简单并且有效

  5. □□□□ □□□□ 管理局 将会 向 财政 司 负责 。 The Authority will be accountable to the Financial Secretary . 1. 每一层只允许相同的调序 准则存在,即当前层或者为 单调顺序层,或者为单调反 序层 2. 不同的短语组合顺序需要 产生新的层,两层交替存在 3. 每一个句子对产生唯一的 一颗句法树,树的叶子节点 是词对

  6. 压平的双语句法树 • 属性 • 每一层只允许相同的调序准则存在,即当前层或者为单调顺序层,或者为单调反序层 • 不同的短语组合顺序需要产生新的层,两层交替存在 • 每一个句子对产生唯一的一颗句法树,树的叶子节点是词对 • 中英语料上的统计数据表明:98%的短语仅仅在其中的一层出现过,解码时,这些短语仍然仅在这样的层中出现

  7. 树的生成

  8. 短语属性抽取 短语属性抽取

  9. 解码 • 自底向上的动态解码 • 短语对定义 • 类别A:训练语料中出现过的短语对,带有“层次”属性 • 类别B:训练语料中未出现的短语对,新组合的短语对 • 组合关系 • A A:根据A的“层次”属性决定,优先组合相同的“层次”属性,不相同时,生成新的层后组合 • A B 或者 B A:根据A的“层次”属性决定 • B B:顺序和反序都要考虑

  10. 实验 • NIST中英评测(训练语料100万句)

  11. 层次型短语 <X1> 之一 ||| one of <X1> <X1> 的 <X2> ||| the <X2> of <X1> 压平的句法树方法 之一/one of 反序属性 例:□□之一/one of □□ 和层次型短语比较

  12. 利用压平的双语句法树进行短语重排序 • 在翻译的过程中,某些词或者短语是不需要和周围的词进行顺序交换的,这种方法利用短语在句法树中的位置属性,减少这部分调序操作 • 自动得到句法树,以及短语的所处层属性,解码的时候,需要遵循这一属性 • 具有处理非连续短语的能力 • 实验结果,相对Pharaoh (dl=4) 7%的提高,低于层次型短语方法

  13. 谢 谢!

More Related