ドメイン内の信頼度と談話の整合性を用いた音声認識誤りの検出

ドメイン内の信頼度と談話の整合性を用いた音声認識誤りの検出ドメイン内の信頼度と談話の整合性を用いた音声認識誤りの検出 Detection of Speech Recognition Errors using In-domain Confidence and Discourse Coherence Measures レーンイアン, 河原達也ＡＴＲ音声言語コミュニケーション研究所京都大学情報学研究科

研究の背景 • 現在の音声認識技術は頑健ではない: • 音響的なミスマッチ: 雑音, チャンネル, 話者の分散 • 言語的なミスマッチ: 非流暢現象, OOV, OOD • 音声認識結果の信頼度を推定する必要がある適切なユーザーフィードバック • 信頼度のレベルに応じて適切な回復戦略を選択する

信頼度尺度に関する従来研究 • デコーダから得た特徴に基づく手法 • [Kemp]特徴：word-duration, AM/LM back-off • モデル比較 • [Rahim]コーホートモデルとの対数尤度比 • 事後確率 • [Komatani, Soong, Wessel] word-graphの中の全ての競合仮説を用いて事後確率を推定音声認識デコーダから直接得られる“低次の” 情報しか用いていない

提案手法 • 音声認識デコーダより“高次の”知識を用いて認識結果の信頼度を推定例：アプリケーションのドメイン, 談話フローに関する知識 “高次の“知識に基づく信頼度尺度の導入 • ドメイン内の信頼度尺度 (in-domain confidence) • 発話がシステムの扱うドメイン内である信頼度 • 談話の整合性に関する信頼度尺度 (discourse coherence) • 対話における発話の関連性・一貫性に関する尺度

CMin-domain(Xi): ドメイン内の信頼度 CMdiscourse(Xi|Xi-1): 談話の整合性 CM(Xi): 総合的な信頼度尺度（以上の二つの尺度と一般化事後確率(GPP) を組み合わせたもの）発話検証システムの概要入力発話ドメイン外発話の検出音声認識テコーダ Xi-1 CMin-domain(Xi-1) トピックへの分類ドメイン内検証 CMdiscourse(Xi|Xi-1) dist(Xi,Xi-1) ドメイン外発話の検出音声認識テコーダ CM(Xi) Xi トピックへの分類ドメイン内検証 CMin-domain(Xi) CMgpp(Xi)

ドメイン内信頼度尺度 (In-domain Confidence) • アプリケーションドメインのトピックの関連性に基づく尺度 • 以前ドメイン外発話検出に用いた尺度 [Lane ICASSP’04] • ドメイン外の発話[ドメイン: 旅行] • REF: How can I print this WORD file double-sided • ASR: How can I open this word on the pool-side • トピックの一貫性がない ドメイン内信頼度が低い • 音声認識誤りがある仮説 • REF: I want to go to Kyoto, can I go by bus • ASR: I want to go to Kyoto, can I take a bath • トピックの一貫性がない ドメイン内信頼度が低い REF:書き起こしASR:音声認識結果

単語ベクトル (a, …, room, …, seat, …, I+have, … (1, …, 0 , …, 1 , …, 1 , … トピック分類の信頼度(C(t1|Xi), ... ,C(tm|Xi)) accom. airplane airport … 0.05 0.36 0.94 ドメイン内の検証スコア 90 % ドメイン内信頼度尺度(In-domain Confidence) 入力発話（Xi） (音声認識仮説) e.g. ‘could I have a non-smoking seat’ 単語ベクトル空間への写像複数トピックへの分類 SVM (1~m) ドメイン内検証 Vin-domain(Xi) CMin-domain(Xi)

ドメイン内信頼度尺度(In-domain Confidence) • ドメイン内の検証スコアにシグモイド関数を用いる where C(tj|Xi): 発話 Xiに対するトピック tjの信頼度 j: トピック tjの重み

談話の整合性尺度(Discourse Coherence) • 対話の一つ前の発話とのトピックの関連性 • 誤りがある音声認識結果 • 話者 A: 一つ前の発話 [Xi-1] • REF: What type of shirt are you looking for? • ASR: What type of shirt are you looking for? • 話者 B: 現在の発話 [Xi] • REF: I’m looking for a T-shirt. • ASR: I’m looking for a teacher. • 発話間のトピック一貫性がない • 談話の整合性尺度が低い REF:書き起こしASR:音声認識結果

談話の整合性尺度(Discourse Coherence) • 現在の発話(Xi)と一つ前の発話 (Xi-1)のトピック信頼度空間での重み付きユークリッド距離 • Xi, Xi-1関連がある  CMdiscourse 高い j:　ドメイン内検証モデルのトピック tjの重み

総合的な信頼度尺度(Joint Confidence Score) • 提案した二つの尺度を音声認識結果のGPP(一般化事後確率)[Lo & Soong] と組み合わせる where • CM(Xi) を閾値（）と比較して発話検証を行う • 開発データを用いて gpp, in-domain, discourseと  を学習

評価実験 学習データ • ATR BTEC コーパス（旅行会話ドメイン） • トピック分類とドメイン内検証のモデルを学習 • 14個のトピック (accommodation, shopping, transit, …) • 400k 文 (日本語/英語ペア) 評価データ • ATR MAD (machine aided dialogue) • ATRの日英音声翻訳システムを介した自然な対話 • 与えられたシナリオに基づいて対話

音声認識性能 • Cross Evaluation: Set-1で重み、閾値を学習して、Set-2で評価 Set-2で重み、閾値を学習して、Set-1で評価評価結果はこの二つの平均

評価尺度 • 発話検証 • 音声翻訳では“keyword”のセットが定義できない • 音声認識誤りが起きれば (一つ以上の単語誤り) 全体の発話を言い直す必要がある • CER (confidence error rate) • FA:　音声認識結果が誤っているが、正しいと判別された数 • FR:　音声認識結果が正しいが、誤りであると判別された数

ドメイン内信頼度と談話の整合性尺度の導入 (English) GPP:一般化事後確率 IC:ドメイン内信頼度 DC:談話の整合性尺度 GPP GPP +IC GPP +DC GPP +IC +DC • “GPP+IC”と“GPP+DC”でCER減少（9.1% and 6.5% relative） • “GPP+IC+DC”においてさらにCER減少18.2%16.1%(11.4% relative)

ドメイン内信頼度と談話の整合性尺度の導入 (Japanese) GPP:一般化事後確率 IC:ドメイン内信頼度 DC:談話の整合性尺度 GPP GPP +IC GPP +DC GPP +IC +DC • “GPP+IC”と“GPP+DC”でCER減少（6.4% and 4.2% relative） • “GPP+IC+DC”においてさらにCER減少 20.7%19.0% (8.1% relative)

まとめ • “高次の”知識に基づいた信頼度尺度を用いる発話検証手法を提案したドメイン内の信頼度尺度　(in-domain confidence) 発話がシステムの扱うドメイン内である信頼度談話の整合性に関する信頼度尺度 (discourse coherence) 対話における発話の一貫性に関する尺度 • 音声翻訳システムを介した自然な対話で評価 • 提案した二つの尺度を導入すると発話検証性能を向上することができた（日本語=8.1%/英語=11.4%）

Thank You ian.lane@atr.jp

ドメイン内の信頼度と談話の整合性 を用いた音声認識誤りの検出