11 001 new features for statistical machine translation
This presentation is the property of its rightful owner.
Sponsored Links
1 / 27

11,001 New Features for Statistical Machine Translation PowerPoint PPT Presentation


  • 104 Views
  • Uploaded on
  • Presentation posted in: General

11,001 New Features for Statistical Machine Translation. David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 简介. 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1

Download Presentation

11,001 New Features for Statistical Machine Translation

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


11 001 new features for statistical machine translation

11,001 New Features for Statistical Machine Translation

David Chiang, Kevin Knight, Wei Wang

报告人:李贤华

2009.11.12


11 001 new features for statistical machine translation

主要内容

  • 简介

  • MIRA训练

  • 特征选择

  • 实验结果

  • 分析讨论


11 001 new features for statistical machine translation

主要内容

  • 简介

  • MIRA训练

  • 特征选择

  • 实验结果

  • 分析讨论


11 001 new features for statistical machine translation

简介

  • 所用系统:Hiero,句法系统

  • 所用方法:添加大量特征,用MIRA训练

  • 实验结果:汉英上BLEU分别提高1.5,1.1

  • 添加的特征多为句法系统才能使用的特征,突出句法系统的优势。

  • 相比MERT,MIRA对于多特征调参更佳。


Baseline

Baseline

  • Hiero:

    串到串翻译系统,12个特征,用MERT训练得到权重

    句法系统:

    串到树翻译系统,25个特征,用MERT训练得到权重


11 001 new features for statistical machine translation

主要内容

  • 简介

  • MIRA训练

  • 特征选择

  • 实验结果

  • 分析讨论


11 001 new features for statistical machine translation

MIRA训练

将新特征加入线性模型,用MIRA训练。

e:输出串 h(e): e的特征向量 w:特征权重

循环如下:

1.选择一组输入句子f1…fm,解码

2.对于每个输入句子,选择其10-best

3.对每个输入句子,选择一个oracle翻译,


11 001 new features for statistical machine translation

4.对于每一个候选翻译,计算损失

5.更新w至w’,w’最小化:

对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。


11 001 new features for statistical machine translation

主要内容

  • 简介

  • MIRA训练

  • 特征选择

  • 实验结果

  • 分析讨论


11 001 new features for statistical machine translation

特征选择

  • Discount feature

    有许多计数为1的规则被选中,说明其概率被高估了

    使用特征count来奖励或者惩罚规则,特征值和规则的计数有关


11 001 new features for statistical machine translation

  • 目标端特征

  • Rule overlap features

  • 规则之间有交点。有些非终结符作为交点时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。


11 001 new features for statistical machine translation

  • Bad single-level rewrite

    对于一些使用范围很小的有问题的规则进行惩罚,通过对开发集的观察,得到以下规则需要惩罚:

    PP->VBN NP-C

    PP-BAR->NP-C IN

    VP->NP-C PP

    CONJP->RB IN


11 001 new features for statistical machine translation

  • Node count features

    对于树中出现的非终结符计数,以免某非终结符出现过多或过少

  • Insertion features

    有些规则会在英文端插入一些单词。

    对于每一个最可能出现在插入规则中的单词一个特征。


11 001 new features for statistical machine translation

特征选择

  • 源端特征:

  • Soft syntactic constraints

    软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则


11 001 new features for statistical machine translation

  • Structural distortion features

    设S为非终结符覆盖的源语言单词个数,R为是否要调序,P(R|S)可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。


11 001 new features for statistical machine translation

主要内容

  • 简介

  • MIRA训练

  • 特征选择

  • 实验结果

  • 分析讨论


11 001 new features for statistical machine translation

实验结果

  • 使用了260m词的汉英双语语料。

  • 对于句法系统,重现了Collins的parser,以对英语部分产生句法树

  • 句法规则的抽取是在65m的子训练集上完成的

  • 对于Hiero,两个非终结符的规则在38m子集上抽取,其余规则在训练集其余部分抽取


11 001 new features for statistical machine translation

  • 训练了3个5元语言模型

  • 1->在整个英文语料上训得,用于两个系统

  • 2->用10亿词训得,用于句法系统

  • 3->用20亿词训得,用于Hiero

  • 所有语言模型都用KN平滑算法


11 001 new features for statistical machine translation

  • 开发集:2010个句子

  • 测试集:1994个句子

  • 从NIST2004,2005及GALE program抽取的新闻语料。

  • Hiero用了源端特征,句法系统用了目标端特征,两个系统都用了折扣特征。


11 001 new features for statistical machine translation

主要内容

  • 简介

  • MIRA训练

  • 特征选择

  • 实验结果

  • 分析讨论


11 001 new features for statistical machine translation

分析

  • Discount feature:

    +表示惩罚,

    -表示奖励。


11 001 new features for statistical machine translation

  • Word insertion feature:

  • Be动词,a+

  • the,.,,-


11 001 new features for statistical machine translation

  • Rule-overlap feature


11 001 new features for statistical machine translation

  • Weights for generated English nonterminals


11 001 new features for statistical machine translation

结论

  • 1.新特征即使在顶级翻译系统上也能有所作为

  • 2.MIRA优于MERT

  • 3.句法系统能利用在其他系统中无法使用的特征,句法系统和MIRA是一个强大的组合


11 001 new features for statistical machine translation

相关论文:

  • 1.Online large-margin training of syntactic and structural translation features

  • 2.minimum error rate training in statistical machine translation


  • Login