1 / 20

基于实体约束的纳西 - 汉语双语词语 对齐方法

基于实体约束的纳西 - 汉语双语词语 对齐方法. 杨秀贞 余正涛 郭剑毅 潘霄 毛存礼 昆明理工大学信息工程与自动化学院. 论文题纲. 1. 研究背景及意义 2. 国内外研究现状 3. 基于实体约束的纳西 - 汉语双语词语对齐方法 4. 实验及结果分析 5. 结论. 1 研究背景及意义. 纳西语言研究意义 纳西文是由云南丽江纳西族先民创造并使用的文字 , 是目前世界上唯一仍在使用中的象形文字。 如:兔子( )、骆驼( )、鱼( )、稻谷( ) 现在仍有 50 万人在使用。

Download Presentation

基于实体约束的纳西 - 汉语双语词语 对齐方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于实体约束的纳西-汉语双语词语对齐方法 杨秀贞 余正涛 郭剑毅 潘霄 毛存礼 昆明理工大学信息工程与自动化学院

  2. 论文题纲 1. 研究背景及意义 2.国内外研究现状 3.基于实体约束的纳西-汉语双语词语对齐方法 4. 实验及结果分析 5.结论

  3. 1 研究背景及意义 • 纳西语言研究意义 • 纳西文是由云南丽江纳西族先民创造并使用的文字,是目前世界上唯一仍在使用中的象形文字。 如:兔子( )、骆驼( )、鱼( )、稻谷( ) • 现在仍有50万人在使用。 • 在各种外来文化和现代文明的渗透下,纳西象形文正在迅速地变异和消亡,为了实现对这一文字的保护与传承需要构建一个高质量的纳西-汉语双语机器翻译系统。 • 词语对齐的语料是机器翻译系统重要的资源。

  4. 1 研究背景及意义 • 实验室所做工作 • 制作了4186个纳西字符 • 实现了纳西-汉语双语词典 • 实现了纳西-英语、纳西-汉语、纳西拼音输入法 • 整理出纳西-汉语双语语料23000句左右;

  5. 2 国内外研究现状 • 中-英双语词语对齐方法 • Franz Och 等人开发出了基于IBM模型的词语对齐开源工具GIZA++。 • Och等人 (2003)提出模型 6,该模型是 IBM 翻译模型和 HMM 模型的线性整合。 • Cherry 等人(2003)提出一种易于整合与上下文相关特征的统计模型。 • 刘群等人提出了基于对数线性模型的词语对齐方法。

  6. 2 国内外研究现状 • 纳西-汉语双语词语对齐方法 • 使用GIZA++实现纳西汉语双语词语对齐。 • 存在的问题: 纳西和汉语语法差别较大,纳西句子成分的基本语序是“ 主-宾-谓”,汉语的基本语序是“ 主-谓-宾”,造成在使用GIZA++进行对齐时,纳西句子中的实体对齐到汉语句子中的非实体上。

  7. 2 国内外研究现状 • 本文提出的方法 针对以上问题,提出了一种基于实体约束的纳西-汉语双语词语对齐方法,在对齐时考虑双语句子中实体与实体应当对齐的特点,从而解决双语中实体对齐到非实体上的问题。

  8. 3 基于实体约束的纳西-汉语词语对齐方法 • 基于实体约束的纳西-汉语词语对齐方法的思想: • 利用了双语对齐过程中,实体之间存在对齐关系,而现在实体方法能够将双语中的实体有效识别出来,通过标注双语中实体对齐关系,并利用这些关系来提高双语词语对齐的准确率。 • 实现过程: • (1)对平行的纳西和汉语语句分别进行分词。 • (2)识别出纳西语与汉语句子中的一些实体。 • (3)将两个句子中对应的实体用相同标记替换。 • (4)对替换后的语句使用GIZA++进行词语对齐 • (5)通过扫描原始双语句对,将对齐结果中的标记还原为对应的实体,即可得到最后的对齐结果。

  9. 3.1 纳西分词 纳西语跟汉语一样,纳西语言同样存在分词问题。选取句子中纳西字符作为特征,标记词切分语料,采用条件随机场模型训练构建纳西分词模型。 • (1)特征模板定义 代表着当前字符; 是相对于当前字符所处的位置。比如,在序列 (一家人喜欢吃鲜肉)中,假如当前字符是‘ (人)’; 表示‘ (家)’; 表示‘ (一)’。 是针对分词语料中存在的标点符号(预先搜集,比如‘。’、‘?’等)而设置的特征。

  10. 3.1 纳西分词 • (2)语料预处理,切分为单个字符 • (3)标记语料

  11. 3.1 纳西分词 • (4)训练模型 • (5)识别

  12. 3.1 纳西分词结果 • (6)分析整理得到最终的纳西分词结果

  13. 3.2 单语实体识别 • 纳西端: • 首先使用条件随机场对纳西语句子进行分词和词性标记,然后再次使用条件随机场对分词后的句子进行实体识别(人名、地名、数词和时间词)例如: • 中文端: • 首先使用ICTCLAS对汉语句子进行分词和词性标记,ICTCLAS自身还带有实体识别模块,借助该模块,对汉语句子进行实体识别。例如:

  14. 3.3 双语实体对齐 • 对识别出来的纳西和汉语实体,借助纳西-汉语词典,实现纳西汉语实体对齐。

  15. 3.4 标记替换 • 将纳西汉语相对应的实体用RM、DM、SC和SJC,替换识别出来的实体,注意:在同一个句子中不同的实体用不同的标记来替换。例如:

  16. 3.5 GIZA++对齐 • GIZA++对齐: • 在用标记替换实体后的双语句对上,使用GIZA++工具进行对齐。对齐结果如下所示:

  17. 3.6 标记还原 • 标记还原: • 通过扫描原始双语句对,将标记还原为其对应的实体,这样即可得到最终的对齐结果。

  18. 4 实验及结果分析 • 为了验证这个方法,以只用IBM模型作为对比实验,收集了8000句的纳西-汉语双语平行语料;从8000句的纳西-汉语语料库中抽取了200句作为评测数据。 • 通过对比实验看出, 准确率提高了5.48%,召回率提高了5.88%,F权重提高了5.13%,词语对齐错误率降低了7% 。

  19. 5 结论 • 表明了基于实体约束的纳西-汉语双语词语对齐方法对纳西-汉语的词语对齐有很好的效果。 • 这对构建纳西-汉语双语语料库具有非常好支撑作用 • 下一步工作: • 将从如何融合纳西语言句法或语义特点研究纳西汉语双语句子对齐 。

  20. 谢谢大家!

More Related