40 likes | 173 Views
統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応用. (株)東芝 研究開発センター 釜谷聡史. 背景. 実用的な音声翻訳への要求 (a) 任意の表現を、正しく翻訳 (b) 正確で自然な表現で、翻訳 既存の翻訳手法 (1) 抽象化された規則に基づく手法 ( e.g. RBMT) 長所:広カバレージ、短所:機械的な訳文 → (a) の解決に有利 (2) 具体的な用例に基づく手法 ( e.g. TM,EBMT) 長所:自然な訳文、短所:狭カバレージ → (b) の解決に有利 (1) と (2) とを融合して、両者の長所を引き出す
E N D
統語構造に基づく入力文分割とそのハイブリッド音声翻訳への応用統語構造に基づく入力文分割とそのハイブリッド音声翻訳への応用 (株)東芝 研究開発センター 釜谷聡史
背景 • 実用的な音声翻訳への要求 (a) 任意の表現を、正しく翻訳 (b) 正確で自然な表現で、翻訳 • 既存の翻訳手法 (1) 抽象化された規則に基づく手法 (e.g. RBMT) • 長所:広カバレージ、短所:機械的な訳文 →(a)の解決に有利 (2) 具体的な用例に基づく手法 (e.g. TM,EBMT) • 長所:自然な訳文、短所:狭カバレージ →(b)の解決に有利 • (1)と(2)とを融合して、両者の長所を引き出す • RBMTとEBMTとのハイブリッド翻訳→(a),(b)を同時に実現
文分割に基づくハイブリッド翻訳方式 • 入力文: [ 私はサイズが大きいのが気に入ったけどやめます] • 最適セグメント割当: [ サイズ/が/大きい/のが ] + [気に入っ/た/けど ] + [私/は/やめ/ます] • ハイブリッド翻訳結果: [ It's so big ]EBMT + [ I like it but]RBMT + [ I just can't buy it.]EBMT
評価 • 翻訳方向 = 日本語→英語 旅行ドメイン • 用例翻訳 = 用例数:123,819対 旅行ドメイン • 評価指標 = NIST/BLEU 正解訳=各1文 ○評価セットA (open) 1000文、平均13.4文字/文 ○評価セットB (open) 200文、平均20.5文字/文 Hybrid 方式での性能改善を確認