2008 年 BJUT-MTG 汉英机器翻译系统技术报告

2008 年BJUT-MTG 汉英机器翻译系统技术报告 报告人李雁鹏 yanpenglee@emails.bjut.edu.cn 北京工业大学机器翻译组 2008-11-27

概要 • 系统简介 • 预处理、对齐、短语抽取 • 倒排索引 • 评测的实验过程 • 评测结果分析

评测测试集文件 训练语料库预处理模块汉语分词模块句子提取词语对齐模块解码器短语抽取模块结果文件生成建倒排索引倒排索引评测结果文件系统简介-系统结构

预处理(1) • 中文预处理 • 分词：SEGSDK (由Mandel Shi开发) • A3全角字符到半角字符: ＢＪＵＴ- BJUT • 英文预处理 • 句首大写字母的大小写统计转换: We are – we are • 标点符号和单词间的空格插入: end. – end□. • 输入：评测所提供的部分训练语料 • 输出：可用于词语对齐的语料

预处理(2) • 切分标注模块SEGSDK1.20介绍 • 由Mandel Shi开发 • 支持Win平台和Linux平台 • 汉字简繁体输入的切分、标注和命名实体识别 • 缺点：长句子会出错，因此需要按标点断开长句为短句 • 例：

词语对齐训练 • 利用统计机器翻译工具GIZA++ • 输入：预处理后的语料 • 输出：词语对齐关系 • 例：

短语抽取 • 用中科院计算所的“丝路”1.0抽取短语 • 将获取的对齐关系转换成短语抽取要求的格式 • 调用短语抽取工具进行短语抽取 • 利用计算短语翻译概率工具去除重复的短语抽取

建立倒排索引-1 • 抽取出的短语数量很大：百万-千万条 • 常用的方法：Hashmap，效率高但需要很多内存 • 倒排索引可以使查找短语更有效率 • 倒排索引的核心：汉字词语为词条的词典，一般词条只有几万条

建立倒排索引-2 • 倒排词典的格式 • 汉语词语 • 出现词语的短语数量 • 短语序号桶的桶号数组 • 词典中不直接存短语序号，而是存由短语序号构成的“序号桶”的桶号 • 序号桶的格式 • 桶号 • 数组：以<短语序号，词在短语中的位置>为单元

建立倒排索引-3 • 实现 • 词典、桶都是文件 • 桶号是文件偏移量 –方便快速定位 • 建立索引例 • 短语文件中序号为833748的行： • 宇宙卫星被用来快速传送长途电话。 ||| space satellite is used to speed long distance call . ||| 1 0 1 0

建立倒排索引-4 • 序号为833748的短语在倒排词典中对应如下词条 • 桶文件中，在对应的桶号数组中必然有833748号短语的记录 • 如：112570688 <833748，0>

建立倒排索引-5 • 在汉英翻译系统中，很小的倒排词典常驻内存，通过文件偏移量访问桶文件 • 由于记录了词语在短语中的位置，选择短语时不需要再访问抽取的短语文件 • 其它辅助文件 • 各个短语有几个词语的短语长度文件 - 常驻内存 • 短语号对应短语文件偏移量的短语偏移文件 - 常驻内存 • 抽取的短语文件 - 建索引时读取，翻译做最后替换时读取

建立倒排索引-6 • 时间性能 • 建立倒排索引：863的360万条短语，用时5分6秒 • CWMT08汉英新闻4014句翻译，用时14分16秒 • 测试环境：CPU主频1.8GHz, 内存1GB • 问题 • 高频词引起性能下降 • 倒排索引建在词语上，依赖中文词切分：短语对齐到词语，翻译时必须保证正确切分成同一个词语。

评测的实验过程 • 从测试数据XML文件中抽取原文句子 • 利用机器翻译系统逐个句子翻译 • 人工干预：向系统提供人名、地名和机构名等专名约2000多个，例如 • 翻译结果转编码，填入测试结果格式的XML中

评测结果分析 • 评测结果 • 成绩最差的原因 • 最重要的原因是解码器的设计和实现还不完善 • 抽取的单词和短语规模小 • 没考虑目标语言英语的特性处理：性、数、格、时态、语态、否定等 • 没有语序调整，翻译结果的后处理不完善 • 转变为动力，努力学习和改进，向大家学习！

谢谢大家！

2008 年 BJUT-MTG 汉英机器翻译系统技术报告