1 / 17

自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳

自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳. 中澤敏明 黒橋禎夫 京都大学. NLP2008 3 月 18 日 ( 火 ). 高精度な機械翻訳を実現するには?. 訳語選択. 語順. 機能表現 を正確に扱う. X 始める。    begin to X. 電界強度が21.4kV/mmを越えると分極反転電流が 流れる。. when the electric field strength and the polarization reversal current flows over 21.4 kv / mm.

Download Presentation

自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 自動学習された機能語の翻訳パターンを用いた用例ベース機械翻訳自動学習された機能語の翻訳パターンを用いた用例ベース機械翻訳 中澤敏明 黒橋禎夫 京都大学 NLP2008 3月18日(火)

  2. 高精度な機械翻訳を実現するには? 訳語選択 語順 機能表現を正確に扱う X 始める。  begin to X 電界強度が21.4kV/mmを越えると分極反転電流が流れる。 when the electric field strength and the polarization reversal current flows over 21.4 kv / mm . 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 electric field intensity was 21.4 kv / mm and the polarization reversal current flows over . the domain inversion current begins to flow , when the field intensity exceeds 21.4kv / mm .

  3. Hierarchical Phrase-Based SMT (Chiang 2005, Watanabe et al. 2006) • Phrase-based SMTの手法から翻訳のruleを抽出 • synchronous CFGのようにruleを再帰的に適用することにより、目的の翻訳を得る • ruleの数が爆発するため、ruleの枝狩りや効率的なdecodingが必要 構文情報を考慮し、 機能表現にのみ注目したパターンを抽出

  4. 目次 • 背景 • 用例ベース翻訳システム概要 • 機能表現パターンの学習 • 実験と考察 • まとめ

  5. 目次 • 背景 • 用例ベース翻訳システム概要 • 機能表現パターンの学習 • 実験と考察 • まとめ

  6. [0] at the headquarters [0] 本部の [1] パソコンの [3] different 日本語 英語 [3] kinds [2] リストには 本部のパソコンのリストにはさまざまな訴えが並ぶ。 At the headquarters, different kinds of complaints are stored on a computer list. [4] of complaints [3] さまざまな [5] are stored [4] 訴えが 一九九七年七月の中国返還に向けてカウントダウンに入った香港。 Hong Kong has begun the countdown to its reversion to China in July, 1997. [5] 並ぶ。 [1] computer [2] on a list 今春の都知事選をめぐる候補者選びの動きは混迷の様相のまま、越年した。 The New Year has come while the selection of candidates for the gubernatorial election of Tokyo slated for this spring remains confused. [3] different 我々の生活が知らず知らずにどれだけ規制でしばられているか、規制緩和によって豊かさが変わっていくのかを考えてみた。 Not realizing just how much our lives are restricted by rules and regulations, I have thought of a number of ways our lives could be enriched by deregulation. [3] kinds *[2] リストには *[1] パソコンの *[5] are stored [4] of complaints [3] さまざまな [1] パソコンの *[5] are stored [2] リストには *[1] computer [5] are stored [4] 訴えが [2] リストには [1] computer *[5] 並ぶ。 [2] on a list [5] 並ぶ。 [5] are stored *[2] on a list 韓さんは最後まで買収運動を拒否した。 Han continued to refuse money politics to the end. *[2] リストには *[5] 並ぶ。 [2] on a list [5] 並ぶ。 *[2] on a list チャゲが威勢よく言った。 Chage energetically declared. [0] at the headquarters [0] 本部の ロシア・チェチェン共和国情勢も話し合われるとみられる。 The Russia's Chechen issue will certainly be on the agenda. 用例データベースの構築

  7. 入力文:だが、構造改革の効果が表れるには時間がかかる。入力文:だが、構造改革の効果が表れるには時間がかかる。 用例のスコア付け基準 ・用例のサイズ ・付属語の一致、不一致 ・用例内外の係り受け 出力文:Still it will take time for structural reforms to take effect.

  8. 方法 として as 機能表現の翻訳(1/2) 方法 として was studied 入力 出力 検討 した。 as a method として (目的) was studied was studied 親 1.親の用例に のりしろがある 検討 した。 as (a purpose) as a method 子 方法 (から) (from) a method was studied 親 検討 した。 was studied 2.子の用例に のりしろがある (used) as a method 子 (利用 する。) as a method 親 検討 した。 was studied 3.のりしろ情報が ない was studied 子 方法 (から) as a method (from) a method 機能表現パターン として (X) (X)

  9. 機能表現の翻訳(2/2) 入力 調査 し なくて は なら ない 。 用例 調査 (する こと に なる 。) examine パターン (X) し なくて は なら ない 。 have to (X)

  10. 目次 • 背景 • 用例ベース翻訳システム概要 • 機能表現パターンの学習 • 実験と考察 • まとめ

  11. [0] the politicians [0] 政治 に [2] must regain [1] リーダーシップ を [1] their [2] 回復 しなくてはならない。 [1] leadership 機能表現パターンの学習 X | root  must regain なくてはならない。 X:動詞 回復 し | pre X:名詞 に  X | post X:名詞 を  X

  12. 翻訳実験 • JST日英抄録コーパス(100万文対)を利用 • 96.6万文対でトレーニング   用例データベース、翻訳パターンの学習 • 500文を翻訳 • 1リファレンスのBLEUで評価 • 機能表現パターンを適用することにより翻訳精度が向上するかを検証

  13. 翻訳実験結果 +0.52 +0.72 +0.81 参考: Mosesを用いた翻訳 チューニングなし 18.87 チューニングあり 21.85 スコアが向上した文数:162文 スコアが低下した文数:68文

  14. 改善例 入力: 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 出力1: 40.83 Then the inverse current flows when field intensity exceeds 21.4 kV / mm . 出力2: 48.18 Then the inverse current begins to flow when field intensity exceeds 21.4 kV / mm . 正解: The domain inversion current begins to flow when the field intensity exceeds 21.4 kV / mm . 入力: 高齢者に対するセメントレスTHAの適応については,長期経過を十分に配慮し,適応性を判断する必要があると考えた。 出力1: 19.60 It was considered deeply consider the long term progress that had to judge the adaptability on the adaptation of the cementless THA the elderly . 出力2: 25.94 On the adaptation of the cementless THA for the elderly it was considered deeply consider the long term progress that had to judge the adaptability . 正解: On the adaptation of cementless THA for the old people , the attention should be paid on the long term progress , and it is regarded that judging the adaptability is necessary .

  15. 失敗例 入力: ダイオキシンに汚染された環境をいかにして治療するかは,環境科学の最も大切な問題の一つである。 出力1: 27.23 How treatment for polluted dioxin environment is one of the most important problems of environmental science . 出力2: 26.07 How treatment for polluted to dioxin environment is one of themost important problems of environmental science . 正解: How to remedy dioxin polluted environments is one of the most challenging problems in environmental technology .

  16. まとめ • 高精度な翻訳を実現するためには、機能表現を正しく扱うことが重要 • 機能表現パターンを利用した翻訳 • 今後の課題 • 機能表現パターンとして保持すべき情報の再考   汎化のレベルは品詞でよいか?   係り先の情報は必要か? • 日英以外の言語対(英日、日中、中日)での実験

More Related