880 likes | 1.03k Views
汉英词语对齐规范. 赵红梅 1 刘群 1 张瑞强 2 吕雅娟 1 隅田英一郎 2 吴翠玲 2 1 : 2 :. 提纲 词语对齐引起的机器翻译问题 手工词语对齐规范的历史 三 . ICT-NICT 规范的几种对齐标注形式 四 . ICT-NICT 规范对齐规则举例 五 . 对齐标注一致性评价. 一 . 词语对齐引起的机器翻译问题. GIZA++ 对齐. 一 . 词语对齐引起的机器翻译问题. GIZA++ 对齐. 一 . 词语对齐引起的机器翻译问题.
E N D
汉英词语对齐规范 赵红梅1刘群1张瑞强2吕雅娟1隅田英一郎2吴翠玲2 1: 2:
提纲 • 词语对齐引起的机器翻译问题 • 手工词语对齐规范的历史 • 三. ICT-NICT规范的几种对齐标注形式 • 四. ICT-NICT规范对齐规则举例 • 五. 对齐标注一致性评价
一.词语对齐引起的机器翻译问题 • GIZA++对齐
一.词语对齐引起的机器翻译问题 • GIZA++对齐
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误:
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─> 江泽民
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─>
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─> China
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─> China
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─> China 原因:只有一种对齐方式,没有将确定性的对齐和不确定的对齐区分开。 词语的手工对齐
二. 手工词语对齐规范的历史 • 几个知名的手工词语对齐规范
二. 手工词语对齐规范的历史 • 存在的问题
二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分:
二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分: 如:张三 李四 写 的 书 。 books written by Zhang San and Li Si
二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分: 如:张三 李四 写 的 书 。 books written by Zhang San and Li Si
二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分: 如:张三 李四 写 的 书 。 books written by Zhang San and Li Si 抽提出来的词组是:张三 by Zhang San
二. 手工词语对齐规范的历史 B. 除了ARCADE规范外,其它规范都允许将指示代词对齐到被指代物: 如: 我 买 了 张 椅子 ,椅子 很 贵 。 I bought a chair . That is very expensive . 抽提出来的词组是:椅子 that
三. ICT-NICT规范的几种对齐标注形式 强对齐 确定的对齐---真对齐 弱对齐 对齐 不确定的对齐---伪对齐
三. ICT-NICT规范的几种对齐标注形式 1. 真对齐:
三. ICT-NICT规范的几种对齐标注形式 1. 真对齐: 语义完全对等
三. ICT-NICT规范的几种对齐标注形式 1. 真对齐: 语义完全对等 互译具有较大的普遍性
三. ICT-NICT规范的几种对齐标注形式 1. 真对齐: 语义完全对等 互译具有较大的普遍性 正例: 反例: 大选general election 钱其琛 认为 有 麻烦in trouble 完税duty paid Qian said
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐:
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如:
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn ?
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 短语表: 秋天 autumn 去年秋天 last autumn 去年 秋天 last autumn 去年 last 强对齐:语义完全对等 弱对齐:语义相通,为真对齐的词组而设
三. ICT-NICT规范的几种对齐标注形式 2.伪对齐
三. ICT-NICT规范的几种对齐标注形式 2.伪对齐 不确定的
三. ICT-NICT规范的几种对齐标注形式 2.伪对齐: 不确定的 -----只在小范围内语义相通或语法相关 指代 小范围内的语义对等 语义一致的省略 语义相通 语法相关
三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.1. 语义相通之指代 如:唐 家璇 谈 中国 与 东盟 关系 Chinese Vice Foreign Minister on China ASEAN Relations
三. ICT-NICT规范的几种对齐标注形式 ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.2.语义相通之小范围内的语义对等 如:唐 家璇 谈 中国 与 东盟 关系 Chinese Vice Foreign Minister on China ASEAN Relations
三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.3.语义相通之语义一致的省略 ---省略只是字面上的,原文和译文语义还是一致的 如:厦门 加强 城市建设 Xiamen speeds up construction 这里采用“粘合”方式(glue approach)。
三. ICT-NICT规范的几种对齐标注形式 粘合: 当某些词在当前译文中找不到语义对等部分时,可以附着在跟其意义密切相关的主词上,伪对齐到那个主词的对等部分上,这样的对齐方法叫做粘合。
三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.4.语法相关:特定的语法需求 如:他 买 了 一 本 书 (中文有量词) He bought a book
三. ICT-NICT规范的几种对齐标注形式 类似的语法差异还有: 注:★表示该现象为某种语言特有
三. ICT-NICT规范的几种对齐标注形式 伪对齐的意义: 这 张 椅子 这 张 椅子 this chair this chair This: 这位、这篇、这本、这辆…,容易译错! 层次分明,不容易出错;占位,结合其它信息被利用
三. ICT-NICT规范的几种对齐标注形式 3. 全连线 词组可以进行真对齐或伪对齐,但是词组内部有的词根本找不到可以独立对齐的部分。
三. ICT-NICT规范的几种对齐标注形式 3. 全连线 词组可以进行真对齐或伪对齐,但是词组内部有的词根本找不到可以独立对齐的部分。 如:华约 集团 拉脱维亚 与 中国 The Warsaw Pact The two countries
三. ICT-NICT规范的几种对齐标注形式 3. 全连线 词组可以进行真对齐或伪对齐,但是词组内部有的词根本找不到可以独立对齐的部分。 如: 华约 集团 拉脱维亚 与 中国 The Warsaw Pact The two countries
三. ICT-NICT规范的几种对齐标注形式 4. 对齐到空
三. ICT-NICT规范的几种对齐标注形式 4. 对齐到空 如:酒店 有 理发师 吗 ? Is there a hairdresser 'sin the hotel?
四. ICT-NICT规范对齐规则举例 介词:一边有介词,另一边没有对等部分
四. ICT-NICT规范对齐规则举例 介词:一边有介词,另一边没有对等部分 • 强固定搭配: