基于形态信息的汉蒙翻译模型和语言模型构造方法研究

基于形态信息的汉蒙翻译模型和语言模型构造方法研究中科院合肥智能所乌达巴拉 2008年10月9日

目录 • 一、存在的问题及解决方案 • 二、国内外研究现状 • 三、引入语言信息构造翻译模型 • 四、词素级别的语言模型的构造 • 五、总结与展望

一、存在的问题及解决方案 1. 汉蒙统计机器翻译中存在的问题（1）数据稀疏问题比较严重。（2）译文结果在词形变化方面产生的错误比较明显和突出。

一、存在的问题及解决方案 （1）由于语料库缺乏，导致了数据稀疏问题。统计机器翻译的基础是语料库。相比于汉英等已经具有比较长的研究时间的方向，汉蒙语料比较稀缺。目前的几万条的实验资源是远远不能满足当前统计机器翻译的需要的。

一、存在的问题及解决方案 （2）由于蒙古语具有黏着特性，与汉语相比，形态变化非常丰富且复杂，一个词干之后可以层层缀接不同的构形词缀构成不同的词形。因此，译文结果容易在词形变化方面产生错误。

一、存在的问题及解决方案 • 词形变化引起的错误主要集中表现在以下两点： 1)蒙古语动词（除了一些没有词形变化的特殊动词，如ALAG_A，BVI）在句子环境中都会发生词形变化，以表现式、态、体等的信息，而统计机器翻译结果并不总能正确表现蒙古语动词的形态变化；例如，在不考虑蒙古语构形词缀信息的情况下，统计机器翻译结果中会出现如下错误： • BI（我）MARGASI（明天）BEJING-DU（北京）0CIBA（去）。

一、存在的问题及解决方案 2)蒙古语译文中体词变形的错误，如格附加成分的缺乏、冗余以及名词复数形式无变形等。例如， • 我和他去。BI TEGUN-TAI C0G 0CIN_A. • 他和我去。TERE NADA-TAI C0G 0CIN_A. 因此，从形态缺乏的语言到形态丰富语言的翻译比反方向的要难。

一、存在的问题及解决方案 2. 解决方案在统计机器翻译的模型构造过程中引入语言信息。 • 利用汉语局部依存关系 • 利用蒙古语形态信息

二、国内外研究现状 • 近年来，将语言信息加入到统计模型中的方法研究，是国内外学者关注的热点之一。 • 主要是利用句法信息和形态信息。 • 更多的研究是从形态变化丰富的语言到形态变化缺乏的语言。

二、国内外研究现状 • 美国南加州大学Kenji Yamada & Kevin Knight等人分别在2001年和2003年提出了基于句法的从源语言（汉语）句法树到目标语言（英语）串的翻译模型和目标语言（英语）句法树的语言模型； • 中国科学院计算技术研究所在这些基础上扩展为串到树、树到树等多种模型，并应用到汉英统计机器翻译中，取得了比较好的效果。

二、国内外研究现状 • 德国S Nießen&H Ney(2004)利用德语形态句法信息对源语言料库进行重建，并构造了基于层次的词典模型（hierarchical lexicon model），借此提高了德语到英语的词对齐效果。 • 美国Goldwater & McClosky(2005)在捷克语到英语的统计机器翻译中，利用捷克语形态信息提高了基于词的翻译模型的准确性。 • 美国Yang & Kirchhoff(2006)针对形态丰富的语言，提出了基于分层回退模型的短语统计翻译方法（Phrase-Based Backoff Models for Machine Translation），利用源语言形态信息构造了分层回退模型，解决翻译模型（Translation Model）中未出现词的翻译问题，并以德语和芬兰语作为源语言，英语作为目标语言做了相应的实验，提高了翻译结果。

三、引入语言信息构造翻译模型 翻译模型构造研究方案主要包括：（1）汉语词与蒙古语词干对齐与词语评分；（2）连续短语对抽取和短语评分方法；（3）非连续短语的抽取方法。

三、引入语言信息构造翻译模型 （1）汉语词与蒙古语词干对齐与词语评分方法： • 语料处理：汉语分词、词性标注以及依存关系分析；蒙古语语料进行形态分析； • 训练：利用Giza++，抽取汉语词与蒙古语词干的交集，并在交集基础上，扩展邻居集（交集八个方向的邻居的集合），再求遗失集（这些对齐点在并集中但不在交集和邻居集中，且该点所在的行或列没有其他的词语对齐），最后得到汉蒙双向词语对齐提炼结果。 • 采用最大似然估计法，计算词语的翻译概率，进行词语评分。

三、引入语言信息构造翻译模型 （2）连续短语对抽取和短语评分方法：在Och连续短语对抽取思想的基础上，通过如下4条限制条件进行扩展。 a. 短语内的单词在原来句子中的位置必须连续； b. 双语短语必须与对齐矩阵相容，即根据源语言句子和目标语言句子的对齐矩阵，源语言短语中的词语或者对齐到NULL，或者对应的目标语言词语必须在它所对应的短语中，反之亦然；

三、引入语言信息构造翻译模型 c. 在词语对齐矩阵中，如果单行（列）的词语存在不连续的对齐，但是这些不连续是由多个连续片断组成的（称之为局部连续），这种情况也作为要抽取的范围； d. 对翻译短语对进行去噪处理以及错误排除，去掉标点符号对应到词语或短语的情况；利用汉语依存关系信息排除错误对应对。

三、引入语言信息构造翻译模型 （3）非连续短语的抽取方法： • 非连续短语可以认为是不连续的词语串； • 非连续翻译短语对的抽取思想以Och的连续短语对抽取思想为基础； • 引入汉语局部依存关系信息和蒙古语形态信息，抽取具有依存关系的不连续的汉语短语所对应的蒙古语短语，构造非连续汉蒙短语对。

四、词素级别的语言模型的构造 词素级语言模型的研究方案主要包括：（1）基于词的N-Gram语言模型构造，即以每一个蒙古语词为基本单位，构造基于词的N-Gram语言模型；（2）蒙古语词内部词素之间的组合概率模型构造，即以词素为基本单位，对于每个给定的词，计算其内部词干与构形词缀，构形词缀与构形词缀之间的概率关系；（3）语言模型的评测，即利用交叉熵及困惑度分别针对以上两个概率模型进行评测，然后分别选取最优模型，组合构成词素级语言模型。

五、总结与展望 • 在汉蒙翻译的统计机器翻译研究中，由于源语言与目标语言普遍存在的差异，单纯应用统计机器翻译方法进行汉蒙翻译，会导致译文中出现的词形错误等问题。将语言的形态信息引入到统计机器翻译中，可以改善上述问题。 • 但是，在汉蒙翻译的统计机器翻译研究中，仍无法避免数据稀少的问题。 • 本文讨论的非连续短语对抽取方法还需要在进一步进行研究。

基于形态信息的汉蒙翻译模型和语言模型构造方法研究

基于形态信息的汉蒙翻译模型和语言模型构造方法研究

Presentation Transcript