160 likes | 249 Views
2008 年 BJUT-MTG 汉英机器翻译系统技术报告. 报告人 李雁鹏 yanpenglee@emails.bjut.edu.cn 北京工业大学机器翻译组 2008-11-27. 概要. 系统简介 预处理、对齐、短语抽取 倒排索引 评测的实验过程 评测结果分析. 评测测试集文件. 训练语料库. 预处理模块. 汉语分词模块. 句子提取. 词语对齐模块. 解码器. 短语抽取模块. 结果文件生成. 建倒排索引. 倒排索引. 评测结果文件. 系统简介 - 系统结构. 预处理 (1). 中文预处理
E N D
2008 年BJUT-MTG 汉英机器翻译系统技术报告 报告人 李雁鹏 yanpenglee@emails.bjut.edu.cn 北京工业大学机器翻译组 2008-11-27
概要 • 系统简介 • 预处理、对齐、短语抽取 • 倒排索引 • 评测的实验过程 • 评测结果分析
评测测试集文件 训练语料库 预处理模块 汉语分词模块 句子提取 词语对齐模块 解码器 短语抽取模块 结果文件生成 建倒排索引 倒排索引 评测结果文件 系统简介-系统结构
预处理(1) • 中文预处理 • 分词:SEGSDK (由Mandel Shi开发) • A3全角字符到半角字符: BJUT- BJUT • 英文预处理 • 句首大写字母的大小写统计转换: We are – we are • 标点符号和单词间的空格插入: end. – end□. • 输入:评测所提供的部分训练语料 • 输出:可用于词语对齐的语料
预处理(2) • 切分标注模块SEGSDK1.20介绍 • 由Mandel Shi开发 • 支持Win平台和Linux平台 • 汉字简繁体输入的切分、标注和命名实体识别 • 缺点:长句子会出错,因此需要按标点断开长句为短句 • 例:
词语对齐训练 • 利用统计机器翻译工具GIZA++ • 输入:预处理后的语料 • 输出:词语对齐关系 • 例:
短语抽取 • 用中科院计算所的“丝路”1.0抽取短语 • 将获取的对齐关系转换成短语抽取要求的格式 • 调用短语抽取工具进行短语抽取 • 利用计算短语翻译概率工具去除重复的短语抽取
建立倒排索引-1 • 抽取出的短语数量很大:百万-千万条 • 常用的方法:Hashmap,效率高但需要很多内存 • 倒排索引可以使查找短语更有效率 • 倒排索引的核心:汉字词语为词条的词典,一般词条只有几万条
建立倒排索引-2 • 倒排词典的格式 • 汉语词语 • 出现词语的短语数量 • 短语序号桶的桶号数组 • 词典中不直接存短语序号,而是存由短语序号构成的“序号桶”的桶号 • 序号桶的格式 • 桶号 • 数组:以<短语序号,词在短语中的位置>为单元
建立倒排索引-3 • 实现 • 词典、桶都是文件 • 桶号是文件偏移量 –方便快速定位 • 建立索引例 • 短语文件中序号为833748的行: • 宇宙 卫星 被 用来 快速 传送 长途电话 。 ||| space satellite is used to speed long distance call . ||| 1 0 1 0
建立倒排索引-4 • 序号为833748的短语在倒排词典中对应如下词条 • 桶文件中,在对应的桶号数组中必然有833748号短语的记录 • 如:112570688 <833748,0>
建立倒排索引-5 • 在汉英翻译系统中,很小的倒排词典常驻内存,通过文件偏移量访问桶文件 • 由于记录了词语在短语中的位置,选择短语时不需要再访问抽取的短语文件 • 其它辅助文件 • 各个短语有几个词语的短语长度文件 - 常驻内存 • 短语号对应短语文件偏移量的短语偏移文件 - 常驻内存 • 抽取的短语文件 - 建索引时读取,翻译做最后替换时读取
建立倒排索引-6 • 时间性能 • 建立倒排索引:863的360万条短语,用时5分6秒 • CWMT08汉英新闻4014句翻译,用时14分16秒 • 测试环境:CPU主频1.8GHz, 内存1GB • 问题 • 高频词引起性能下降 • 倒排索引建在词语上,依赖中文词切分:短语对齐到词语,翻译时必须保证正确切分成同一个词语。
评测的实验过程 • 从测试数据XML文件中抽取原文句子 • 利用机器翻译系统逐个句子翻译 • 人工干预:向系统提供人名、地名和机构名等专名约2000多个,例如 • 翻译结果转编码,填入测试结果格式的XML中
评测结果分析 • 评测结果 • 成绩最差的原因 • 最重要的原因是解码器的设计和实现还不完善 • 抽取的单词和短语规模小 • 没考虑目标语言英语的特性处理:性、数、格、时态、语态、否定等 • 没有语序调整,翻译结果的后处理不完善 • 转变为动力,努力学习和改进,向大家学习!