1 / 88

汉英词语对齐规范

汉英词语对齐规范. 赵红梅 1 刘群 1 张瑞强 2 吕雅娟 1 隅田英一郎 2 吴翠玲 2 1 : 2 :. 提纲 词语对齐引起的机器翻译问题 手工词语对齐规范的历史 三 . ICT-NICT 规范的几种对齐标注形式 四 . ICT-NICT 规范对齐规则举例 五 . 对齐标注一致性评价. 一 . 词语对齐引起的机器翻译问题. GIZA++ 对齐. 一 . 词语对齐引起的机器翻译问题. GIZA++ 对齐. 一 . 词语对齐引起的机器翻译问题.

piper
Download Presentation

汉英词语对齐规范

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 汉英词语对齐规范 赵红梅1刘群1张瑞强2吕雅娟1隅田英一郎2吴翠玲2 1: 2:

  2. 提纲 • 词语对齐引起的机器翻译问题 • 手工词语对齐规范的历史 • 三. ICT-NICT规范的几种对齐标注形式 • 四. ICT-NICT规范对齐规则举例 • 五. 对齐标注一致性评价

  3. 一.词语对齐引起的机器翻译问题 • GIZA++对齐

  4. 一.词语对齐引起的机器翻译问题 • GIZA++对齐

  5. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误:

  6. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President

  7. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─> 江泽民

  8. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民

  9. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─>

  10. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─> China

  11. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─> China

  12. 一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President<─>江泽民 • 我国<─> China 原因:只有一种对齐方式,没有将确定性的对齐和不确定的对齐区分开。 词语的手工对齐

  13. 二. 手工词语对齐规范的历史 • 几个知名的手工词语对齐规范

  14. 二. 手工词语对齐规范的历史 • 存在的问题

  15. 二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分:

  16. 二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分: 如:张三 李四 写 的 书 。 books written by Zhang San and Li Si

  17. 二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分: 如:张三 李四 写 的 书 。 books written by Zhang San and Li Si

  18. 二. 手工词语对齐规范的历史 • 存在的问题 A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘合的部分: 如:张三 李四 写 的 书 。 books written by Zhang San and Li Si 抽提出来的词组是:张三 by Zhang San

  19. 二. 手工词语对齐规范的历史 B. 除了ARCADE规范外,其它规范都允许将指示代词对齐到被指代物: 如: 我 买 了 张 椅子 ,椅子 很 贵 。 I bought a chair . That is very expensive . 抽提出来的词组是:椅子 that 

  20. 三. ICT-NICT规范的几种对齐标注形式 强对齐 确定的对齐---真对齐 弱对齐 对齐 不确定的对齐---伪对齐

  21. 三. ICT-NICT规范的几种对齐标注形式 1. 真对齐:

  22. 三. ICT-NICT规范的几种对齐标注形式 1. 真对齐: 语义完全对等

  23. 三. ICT-NICT规范的几种对齐标注形式 1. 真对齐: 语义完全对等 互译具有较大的普遍性

  24. 三. ICT-NICT规范的几种对齐标注形式 1. 真对齐: 语义完全对等 互译具有较大的普遍性 正例: 反例: 大选general election 钱其琛 认为 有 麻烦in trouble 完税duty paid Qian said

  25. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐:

  26. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如:

  27. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn

  28. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn

  29. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn ?

  30. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 去年 秋天 last autumn

  31. 三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐: 比如: 短语表: 秋天 autumn 去年秋天 last autumn 去年 秋天 last autumn 去年 last 强对齐:语义完全对等 弱对齐:语义相通,为真对齐的词组而设

  32. 三. ICT-NICT规范的几种对齐标注形式 2.伪对齐

  33. 三. ICT-NICT规范的几种对齐标注形式 2.伪对齐 不确定的

  34. 三. ICT-NICT规范的几种对齐标注形式 2.伪对齐: 不确定的 -----只在小范围内语义相通或语法相关 指代 小范围内的语义对等 语义一致的省略 语义相通 语法相关

  35. 三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.1. 语义相通之指代 如:唐 家璇 谈 中国 与 东盟 关系 Chinese Vice Foreign Minister on China ASEAN Relations

  36. 三. ICT-NICT规范的几种对齐标注形式 ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.2.语义相通之小范围内的语义对等 如:唐 家璇 谈 中国 与 东盟 关系 Chinese Vice Foreign Minister on China ASEAN Relations

  37. 三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.3.语义相通之语义一致的省略 ---省略只是字面上的,原文和译文语义还是一致的 如:厦门 加强 城市建设 Xiamen speeds up construction 这里采用“粘合”方式(glue approach)。

  38. 三. ICT-NICT规范的几种对齐标注形式 粘合: 当某些词在当前译文中找不到语义对等部分时,可以附着在跟其意义密切相关的主词上,伪对齐到那个主词的对等部分上,这样的对齐方法叫做粘合。

  39. 三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐 2.4.语法相关:特定的语法需求 如:他 买 了 一 本 书 (中文有量词) He bought a book

  40. 三. ICT-NICT规范的几种对齐标注形式 类似的语法差异还有: 注:★表示该现象为某种语言特有

  41. 三. ICT-NICT规范的几种对齐标注形式 伪对齐的意义: 这 张 椅子 这 张 椅子 this chair this chair This: 这位、这篇、这本、这辆…,容易译错! 层次分明,不容易出错;占位,结合其它信息被利用

  42. 三. ICT-NICT规范的几种对齐标注形式 3. 全连线 词组可以进行真对齐或伪对齐,但是词组内部有的词根本找不到可以独立对齐的部分。

  43. 三. ICT-NICT规范的几种对齐标注形式 3. 全连线 词组可以进行真对齐或伪对齐,但是词组内部有的词根本找不到可以独立对齐的部分。 如:华约 集团 拉脱维亚 与 中国 The Warsaw Pact The two countries

  44. 三. ICT-NICT规范的几种对齐标注形式 3. 全连线 词组可以进行真对齐或伪对齐,但是词组内部有的词根本找不到可以独立对齐的部分。 如: 华约 集团 拉脱维亚 与 中国 The Warsaw Pact The two countries

  45. 三. ICT-NICT规范的几种对齐标注形式 4. 对齐到空

  46. 三. ICT-NICT规范的几种对齐标注形式 4. 对齐到空 如:酒店 有 理发师 吗 ? Is there a hairdresser 'sin the hotel?

  47. 四. ICT-NICT规范对齐规则举例

  48. 四. ICT-NICT规范对齐规则举例 介词:一边有介词,另一边没有对等部分

  49. 四. ICT-NICT规范对齐规则举例 介词:一边有介词,另一边没有对等部分 • 强固定搭配:

More Related