1 / 29

Word Selection for EBMT based on Monolingual Similarity and Translation Confidence

Word Selection for EBMT based on Monolingual Similarity and Translation Confidence. Eiji Aramaki * ** Sadao Kurohashi * ** Hideki Kashioka ** Hideki Tanaka ** * University of Tokyo ** ATR Spoken Language Translation Research Laboratories. EBMT Framework.

Download Presentation

Word Selection for EBMT based on Monolingual Similarity and Translation Confidence

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Word Selection for EBMT based on Monolingual Similarity and Translation Confidence Eiji Aramaki *** Sadao Kurohashi *** Hideki Kashioka ** Hideki Tanaka ** *University of Tokyo **ATR Spoken Language Translation Research Laboratories

  2. EBMT Framework An EBMT system requires a Translation Memory Input sentence Translation Memory EBMT system Output sentence

  3. EBMT Framework If highly parallel corpus is available ▽ construction of TM is relatively easy Input sentence Translation Memory Parallel Corpus EBMT system Output sentence

  4. EBMT Framework Input sentence Content Aligned Corpus Translation Memory Parallel Corpus EBMT system Output sentence Most available corpora are share the same content.(e.g. newspapers, broadcast-news )

  5. Outline 1: NHK News Corpus 2: How to build a Translation Memory (TM) 3: How to use the TM 4: Experiments 5: Conclusion

  6. 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。 NHK News Corpus (40,000 article pairs) • NHK provides multi-lingual news services • the Japanese Av.# of Japanese sentence = 5.2, English = 7.2. Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。

  7. NHK News Corpus (40,000 article pairs) • English articles are translated from the Japanese articles • Some phrases have no parallel expressions Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. The Imperial Palace “in Tokyo” きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 Schedule of next year event 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。

  8. Outline 1: NHK News Corpus 2: How to build a Translation Memory (TM) 3: How to select Translation Examples from TM 4: Experiments 5: Conclusion

  9. 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。 Sentence Alignment • DP matching method using 5 translation dictionaries (200,000 entries in total) • Extract 1-to-1 sentence-pairs • 1:1-sentence-pairs have higher accuracy than the others 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting.

  10. The rice seedlings 苗は(rice seedling) are grown 去年の(of last year) from grain 秋,(autumn) harvested 天皇陛下が,(the Emperor) by the Emperor 皇居で(at the Imperial Palace) at the Imperial Palace 収穫された(harvested) in Tokyo 稲籾から(from the chaff of rice) last 育てられたものです.(grown) Autumn. Phrase Alignment • Phrase-alignment in 1-to-1 aligned-sentence-pair • We use our method proposed in [Aramaki et al.2001, MT-Summit VIII] • 1: Analysis of phrasal dependency structures • 2: Estimation of basic-phrasal corresp. with dictionaries • 3: Expansion of phrasal corresp. with surrounding information

  11. Translation Example (TE) and Translation Memory (TM) • TE:= sentence pairs • Structurally analyzed • Aligned at phrase level • TM:= a collection of TEs The rice seedlings 苗は(rice seedling) are grown 去年の(of last year) from grain Translation Memory 秋,(autumn) harvested 天皇陛下が,(the Emperor) = by the Emperor 皇居で(at the Imperial Palace) at the Imperial Palace 収穫された(harvested) in Tokyo 稲籾から(from the chaff of rice) last 育てられたものです.(grown) Autumn.

  12. Evaluation of Alignment Accuracy • Sentence alignment • Evaluation-Data: 96 article pairs • Result • All(m-to-n) alignment = 60% (=226/377) • 1-to-1 alignment = 77% (=111/145) • Phrase alignment • Evaluation-Data: 145 1-to-1 sentence pairs • Result • Phrase alignment precision= 50% not high enough to use for TM

  13. WCR (Word Corresponding Ratio) • Discard sentence-pairs with little word correspondence # Content words corresponded in dictionaries WCR= # Content words 6 + 8 WCR= =0.7 9 + 11

  14. WCR & Phrase Alignment Precision 30% 30,000 TEs 70,000 TEs

  15. Outline 1: NHK News Corpus 2: How to build a Translation Memory (TM) 3: How to select Translation Examples from TM 4: Experiments 5: Conclusion

  16. TE T I T T S T I I T S T S Translation Algorithm Input Sentence Output Sentence

  17. TE • Equality between and S I • Surrounding Similarity of and S I • Alignment confidence between and S T Question • How do we select the most plausible example? Input Sentence Similarity Equality I S T Confidence TE Score

  18. Example of I-S-T TE Input Sentence The United States 議会は アメリカは (congress) America has issued 輸入を 輸出を T (import) export a request 制限するように 制限するように that restricts (restrict) restrict S I exports 働きかけた 働きかけてきました (recommend) recommend

  19. 1: Equality between I & S • Equality := # of equal phrases in I & S The United States 議会は アメリカは (congress) America has issued 輸入を 輸出を (import) export a request 1.1 制限するように 制限するように that restricts (restrict) restrict 1.0 exports 働きかけた 働きかけてきました (recommend) recommend TE Score = ΣEQ

  20. 2: Surrounding Similarity The United States 議会は アメリカは 0.6 (congress) America has issued 輸入を 輸出を 0.8 (import) export a request 制限するように 制限するように that restricts (restrict) restrict exports 働きかけた 働きかけてきました Thesaurus match ・・・0.3~0.8 POS match ・・・0.3 (recommend) recommend TE Score = + ΣSIM ΣEQ

  21. Confidence of Alignment is estimated by using dictionaries is estimated by surrounding information The United States 議会は アメリカは (congress) America has issued 輸入を 輸出を (Import) export a request 制限するように 制限するように 制限するように that restricts (restrict) restrict 1.0 0.5 exports 働きかけた 働きかけてきました 働きかけてきました (recommend) recommend } { TE Score = + ΣSIM × ΣCONF ΣEQ

  22. Global Confidence (WCR) The United States 議会は アメリカは (congress) America has issued 輸入を 輸出を (import) export a request 制限するように 制限するように that restricts (restrict) restrict exports 働きかけた 働きかけてきました (recommend) recommend WCR } { TE Score = + ΣSIM × ΣCONF ×WCR ΣEQ

  23. ドイツは German 武力行使に use 抗議するため of force カンボジアに対する for the use 武力行使の protest 援助の of force 新しい aid 凍結を Cambodia 動きに Tahiti suspension 抗議するため 出発しました decided to protest suspended カンボジアに対する aid 援助を to Cambodia 中断しています 援助の the suspension 凍結を of assistance 延長することを そして formally 終わり, 受け入れを decided 決めました. to accept Example TE Output Sentence Input Sentence Source Part Target Part in German ドイツは 高くなっている. has been high 決めました.

  24. Outline 1: NHK News Corpus 2: How to build a Translation Memory (TM) 3: How to select Translation Examples from TM 4: Experiments 5: Conclusion

  25. Experiments (word selection task) • Evaluation-Data • 50 Japanese sentences in NHK-corpus (not used for TM) • Gold-standard-Data • 50 English sentences (which are pairs of evaluation data) • Evaluation • A human judge phrase by phrase referring gold-standard-data • Baseline method uses only dictionaries, and selects the most frequent word or phrase.

  26. Example • TE has much similarity to the Input sentence. • TE has low alignment confidence. 望んでいます (joined) ⇔ have been welcomed TE Input Sentence キム・デジュン大統領は, (President Kim Dae – jung) 天皇皇后両陛下は (The Japanese Emperor and Empress) The Japanese Emperor 昨夜 (last night) 現在 (now) Empress have been welcomed 歓迎式典に (at the ceremony) 歓迎晩餐会に (at reception dinner) at a ceremony 臨まれました. (joined) 臨んでいます. (joined)

  27. Outline 1: NHK News Corpus 2: How to build a Translation Memory (TM) 3: How to select Translation Examples from TM 4: Experiments 5: Conclusion

  28. Conclusion • EBMT system using a content-aligned corpus • Proposed methods: • TM Construction • Discard sentence-pairs with too little word correspondence • Rigorous phrase alignment • TE selection • Source language similarity • Translation confidence • The accuracy of the word selection was 85% • Future Work: • Completion of remaining components • Evaluation of full Translations

More Related