350 likes | 444 Views
整合性尺度を用いた 構造的対訳文アラインメント. 中澤 敏明 Yu Kun 東京大学大学院情報理工学系研究科 黒橋 禎夫 京都大学大学院情報学研究科. 入力文. 翻訳知識. 対訳 コーパス. EBMT. アライメント. 翻訳. 翻訳文. アラインメントの位置付け. アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!. アラインメント. 統計翻訳( SMT ) さまざまな確率的パラメータを学習 辞書などの言語資源は基本的には利用しない 頑健な数学的知識に基づいている
E N D
整合性尺度を用いた構造的対訳文アラインメント整合性尺度を用いた構造的対訳文アラインメント 中澤 敏明 Yu Kun 東京大学大学院情報理工学系研究科 黒橋 禎夫 京都大学大学院情報学研究科
入力文 翻訳知識 対訳 コーパス EBMT アライメント 翻訳 翻訳文 アラインメントの位置付け アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!
アラインメント • 統計翻訳(SMT) • さまざまな確率的パラメータを学習 • 辞書などの言語資源は基本的には利用しない • 頑健な数学的知識に基づいている • 用例ベース翻訳(EBMT) • 翻訳用例の獲得 • 辞書などの言語資源を積極的に利用 • アドホックなルールを利用することが多い [Arul 01]
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
アラインメント • Step1:依存構造解析 • Step2:対応候補の探索 • Step3:対応候補の選択 • Step4:未対応部分の推定
the car came at me 交差 from the side 点 で 、 at the intersection 突然 あの 車 が 飛び出して 来た のです J: 交差点で、突然あの車が 飛び出して来たのです。 E: The car came at me from the side at the intersection. Step1:依存構造解析 • 日本語:形態素解析器JUMAN/構文解析器KNP • 英語:Charniak’s nlparser → ルールによる変換
交差 the car 点 で 、 came 突然 at me あの from the side 車 が at the intersection 飛び出して 来た のです Step2:対応候補の探索 • 対訳辞書 (研究社の和英・英和辞書) • 数字の汎化 (二十三 ⇔ twenty three) • Transliteration (新宿 ⇔ Shinjuku)
Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる
日本 で you 保険 will have to file 会社 に 対して insurance 保険 an claim 請求 の insurance 申し立て が with the office 可能です よ in Japan 曖昧な対応の例
Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる → 様々な対応候補から適切なものを取捨選択 する必要がある このステップが 最も重要! 詳細は後ほど。。。
Step4:未対応部分の推定 • 残っているルートノード同士を対応付ける • 名詞句内のノードをまとめる • そのほかは親ノードへまとめる 交差 the car 点 で 、 came 突然 at me あの from the side 車 が at the intersection 飛び出して 来た のです
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
アラインメントの整合性 • 1 対 複数、複数 対 複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in)
日本 で you 保険 will have to file 会社 に 対して insurance 保険 an claim 請求 の insurance 申し立て が with the office 可能です よ in Japan 曖昧な対応の例
アラインメントの整合性 • 1 対 多、多 対 多などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要
アラインメントの整合性 近い! 遠い!
距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度) アラインメントの整合性 • 1対複数、複数対複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要
ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数
日本 で you 保険 will have to file 会社 に 対して insurance 保険 an claim 請求 の insurance 申し立て が with the office 可能です よ in Japan スコア計算例
距離と距離-スコア関数を改善 ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数
距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数の改善(1/2) • 毎日新聞4万対訳文のアラインメント正解データで距離ペアの頻度分布を計数 [Uchimoto04] 頻度のlog 英語側の距離 日本語側の距離
距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数の改善(2/2) • 距離が近い同士のペア → プラス • 距離が遠い同士のペア → 0 • 距離が近いものと遠いものとのペア → マイナス スコア 英語側の距離 日本語側の距離
3 3 デ格 NP 日本 で you 1 文節内 保険 will have to file 1 1 連用 NN 会社 に 対して insurance 3 1 NP 文節内 保険 an claim 1 2 NN ノ格 距離-スコア関数 請求 の insurance 2 3 ガ格 PP 申し立て が with the office 3 日本語側距離 英語側距離 PP 整合性スコア(整合性尺度) 可能です よ in Japan 係り受けタイプと距離
3 3 デ格 NP 日本 で you 1 文節内 保険 will have to file 1 1 連用 NN 会社 に 対して insurance 3 1 NP 文節内 保険 an claim 1 2 NN ノ格 距離-スコア関数 請求 の insurance 2 3 ガ格 PP 申し立て が with the office 3 日本語側距離 英語側距離 PP 整合性スコア(整合性尺度) 可能です よ in Japan 距離を利用した整合性計算 距離=(1,1) スコア +
デ格 NP 日本 で you 文節内 保険 will have to file 連用 NN 会社 に 対して insurance NP 文節内 保険 an claim NN ノ格 距離-スコア関数 請求 の insurance ガ格 PP 申し立て が with the office 日本語側距離 英語側距離 PP 整合性スコア(整合性尺度) 可能です よ in Japan 距離を利用した整合性計算 3 3 1 1 1 3 1 1 2 距離=(1,7) スコア - 2 3 3
日本 で you 保険 will have to file 会社 に 対して insurance 保険 an claim 距離-スコア関数 請求 の insurance 申し立て が with the office 日本語側距離 英語側距離 整合性スコア(整合性尺度) 可能です よ in Japan アラインメントの整合性尺度
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
アラインメント実験 • 毎日新聞対訳コーパスからランダムに500文 • 正解データとの比較 • 日本語:文字単位 英語:単語単位 • 適合率・再現率・F値 • 対訳辞書 • 研究社 和英 36K 見出し 214K エントリー • 研究社 英和 50K 見出し 303K エントリー
9 =75% 12 9 =82% 11 精度の計算例 適合率(P)= 再現率(R)= PとRの調和平均 F値= =78%
結果と考察 • 距離-スコア関数改善により大幅な適合率向上 • 係り受け距離を考慮することにより全体的な精度の向上
改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment.
改善例(2) J:チェチェン紛争は、東欧諸国の北大西洋条約機構への加盟要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO
結論と今後の課題 • 係り受けタイプと距離-スコア関数を導入 • アラインメントの整合性尺度を定義し、適切な対応候補の選択を可能とすることにより、アラインメント精度の向上に成功 • 係り受けタイプに基づく距離を自動学習 • 距離スコア関数のチューニング • 他の有効なフィーチャの導入