ポッドキャストを対象とした類似エピソード検索手法

ポッドキャストを対象とした類似エピソード検索手法ポッドキャストを対象とした類似エピソード検索手法水野淳太†緒方淳‡後藤真孝‡ †奈良先端科学技術大学院大学(NAIST) ‡産業技術総合研究所(AIST)

背景 : 音声に対する全文検索 • ウェブ上の音声データ • Youtubeをはじめとする動画共有サービス • インターネットラジオ • 音声を含むデータの急増 • 音声に対して，テキスト検索のgoogleのように全文検索を行う重要性が増している NL185SLP71-6

背景 : ポッドキャスト • 音声ファイルをウェブ上で配布し，メディアプレイヤなどで視聴する音声版ブログ • 個人の日記やニュースなど，多くの種類がある • 一連のエピソードと呼ばれる音声データに加え，メタデータも付与されているメタデータタイトル : 「JUNK 爆笑問題カーボーイ」概要 : 「レギュラー番組や雑誌の連載を多数抱える超売れっ子・・・エピソード1 タイトル : 「2006年04月04日」 MP3 : http://podcast.tbsradio.jp/bakusho/files/20060404.mp3 エピソード… NL185SLP71-6

背景 : PodCastle • ポッドキャストを音声認識することで，テキストで検索，閲覧，認識結果の訂正が可能なシステム • ウェブ検索と同じように全文検索が行える NL185SLP71-6

目的 : 類似エピソード検索 • 動画共有サイトでは，メタデータやユーザの視聴履歴をもとに類似動画を提示 • ポッドキャストはメタデータが不十分な場合が多い • エピソードごとに付与されていない場合もある • 視聴履歴は必ずしも関連性を示すとは限らない • メタデータや視聴履歴を用いず，音声認識結果のみを利用して類似エピソードを検索する NL185SLP71-6

類似ポッドキャスト 森永卓郎経済コラム …証券のペーパーレス化，電子化というのが今どんどん進められている… 伊藤洋一のビジネストレンド …郵便局の支払いで領収書がネットで使ったらもらえない… くりらじ PODCAST …無線ICタグで実現できることは… …小さな無線チップで… 同一ポッドキャスト傾向の異なるポッドキャスト目的 : 類似エピソード検索例伊藤洋一のビジネストレンド …無線ICタグを埋め込んで，ユビキタスコミュニケータを使って… …郵便局の振込をネットでやったら領収証が出ないんですよ… NL185SLP71-6

PodCastle ポッドキャストA ポッドキャストB エピソードエピソード手法 : 類似エピソード検索手法類似度の計算 PodCastleを使ってユーザによる検索キーワードセットの抽出エピソード0 エピソード1 エピソード2 エピソード3 キーワードセット0 キーワードセット1 キーワードセット2 キーワードセット3 エピソード0 類似エピソード2 NL185SLP71-6

手法 : キーワード抽出 • TF-IDF法を利用 • 音声認識結果の1-bestでは，正しいキーワードが抽出できない場合がある振り込み上司には教習所が右端に付いているキーワード？キーワード？ NL185SLP71-6

0.8 0.4 振り込みにはが右端に付いている 0.15 0.35 刷り込み用紙用紙領収証は右足着いている 0.05 0.25 吸い込み上司領収書領収書だ手法 : confusion network(CN) 振り込み • 1-best以外の認識候補も利用できる • 正しい認識結果が含まれている可能性がある • 各候補には音声認識の信頼度が付与されている • 確率値となっているので，これをTF-IDFの計算に利用できる上司には教習所が右端に付いている NL185SLP71-6

手法 : CNを利用したTF-IDF • CNによってすべての単語には音声認識の信頼度が付与される • TF-IDFに適用 • 胡ら(2008)の研究では • 数単語からなるクエリと，音声ドキュメントとの比較 • 本研究では • 音声ドキュメント同士の比較 NL185SLP71-6

手法 : TFb-IDFb 振り込み • 音声認識の1-bestに対して計算 • CNの信頼度も利用しない • 本研究のベースライン上司には教習所が右端に付いている刷り込み用紙領収証は右足着いている吸い込み上司領収書だ NL185SLP71-6

0.8 0.4 0.15 0.35 0.05 0.25 手法 : TFp-IDFn 振り込み • TFp • CNの信頼度を利用して計算 • IDFn • エピソード中に，1-bestも含めた全単語が表れたとして計算上司には教習所が右端に付いている刷り込み用紙領収証は右足着いている吸い込み上司領収書だ NL185SLP71-6

0.8 0.4 0.5 0.15 0.3 0.35 0.05 0.2 0.25 領収書領収証教習所手法 : TFp-IDFp 振り込み • TFp • CNの信頼度を利用して計算 • IDFp • ある単語の，CNにおける信頼度の最大値を，ドキュメント数として利用する • 同じ単語がCN内に何度も表れる場合が多い上司には教習所が右端に付いている刷り込み用紙領収証は右足着いている吸い込み上司領収書だ NL185SLP71-6

手法 : TF-IDFのまとめ • TFb-IDFb • 音声認識結果の1-bestに対してTF-IDFを計算したベースライン • TFp-IDFn • TFについて，CNの信頼度を利用 • IDFについて，CNの他の認識候補は利用するが，信頼度は利用しない • TFp-IDFp • TF，IDFともにCNの信頼度を利用 NL185SLP71-6

手法 : 類似エピソード検索 • エピソードについて，各キーワードを次元とし，TF-IDFをその重みとしたベクトルで表現 • エピソード間の類似度はベクトルの余弦で計算 • コサイン類似度 NL185SLP71-6

実験 • PodCastle内の12,184個のエピソードに対して実験 • CNで利用する認識候補は最大10個 • キーワードは上位100個 • 類似エピソードとして上位10件を提示利用したエピソードは大きく3種類に分けられた NL185SLP71-6

実験 • 評価は人手で行い，以下のようなスコアを与えた • 3 : 最も類似している • 2 : 類似している • 1 : 少し類似している • 0 : 類似していない • 人手による評価はコストがかかる • 多くの結果から総合的にどのTF-IDFが良いか，という議論はできない • 3種類の評価尺度 NL185SLP71-6

結果 : 評価尺度1 • スコア3のエピソードが1つ得られればよい場合 • スコア3のエピソードを何位に提示できたか • 単語正解率が低い場合，CN内にも正しい認識結果がなく，TFb-IDFbに比べて改善するのが難しい NL185SLP71-6

結果 : 評価尺度2 • 多くの類似エピソードを要求する場合 • 上位10件中に，いくつの類似エピソードを提示できたかについて，スコアのMRRで評価 • 単語正解率の高いエピソードにおいて，検索性能に改善が見られた NL185SLP71-6

結果 : 評価尺度3 • 多くの類似エピソードを要求する場合 • 尺度2に加えて，スコアの高いエピソードを何位に提示できたかを区別 → 順位の重みを加える • キーワードがうまく得られた場合，単語正解率が低くても，検索性能に改善が見られた NL185SLP71-6

考察 (1/2) • 単語正解率がある程度高い場合は，CNを利用してよい検索が行える • CN内に正しい認識結果が含まれている可能性が高い • 本研究で改善できると考えられるエピソードである • 単語正解率が低くても，良いキーワードが得られれば，news2のように改善できる場合もある NL185SLP71-6

考察 (2/2) • TFp-IDFnとTFp-IDFpの比較 • IDFnでは音声認識の信頼度に関わらず，すべての単語を1回の出現としてカウントする • IDFnの方が特定性の高い単語をキーワードとしやすい • TFp-IDFnの方が特徴的なキーワードが得られたが，特徴的すぎるために類似性の判定には有用ではない • TFp-IDFnは，特定性は高くないがキーワードとして有用な単語に対して低い重みをつけてしまう • TFp-IDFpの方が検索において優れていた理由 NL185SLP71-6

まとめと今後の課題 • 類似エピソード検索において，CNを利用してTF-IDFを定式化しキーワード抽出を行うことで，高い検索性能が得られる • 単語正解率が低い場合は，認識候補が悪影響を与えている • TF-IDFの定式化で，TFとIDFの単純な積算ではなく，2つの重みを調整することで改善できると考えられる • CN全体からエピソードの単語正解率が推測できる可能性 • 単語正解率によって異なるTF-IDFを利用することができると考えられる • 類似度によってクラスタリングを行うことで，内容に基づいた分類が行える可能性がある • ユーザにとって，より多くのエピソードを視聴する動機付けとなる NL185SLP71-6

NL185SLP71-6

E H G A J A G D I sil sil C sil I F C F sil sil B D F H 2段階の音響的クラスタリング F A C H J 0.81 0.56 0.97 0.80 0.98 [PodCastleでの表示] • 各区間ごとの競合関係が明確化 D G I • 各リンクには，各区間ごとの事後確率を算出 0.12 0.30 0.03 0.20 0.02 B E 0.56 0.07 手法 : confusion network(CN) 発話開始発話終了 • 非線形な表現の単語グラフ NL185SLP71-6

手法 : TFの定式化 • 単語について • 音声認識結果の1-bestに対して一般的なTFを定式化 TFb • ドキュメント内の単語の出現回数 • CNの事後確率を利用して定式化 TFp • エピソード内の位置における事後確率 NL185SLP71-6

手法 : IDFの定式化 • 音声認識結果の1-bestに対して一般的なIDFを定式化 IDFb • 単語の出現するエピソード数 • 全エピソード数 • CNを利用し事後確率は利用しない場合 IDFn • 信頼度に関わらず，一回の出現を一回と数える • CNの事後確率を利用する場合 IDFp • エピソードにおける単語の最大確率値 NL185SLP71-6

実験 : 評価尺度(1/3) • 評価は人手で行い以下のようなスコアを与えた • 3 : 最も類似している • 2 : 類似している • 1 : 少し類似している • 0 : 類似していない • 音声なので，実際に視聴するまで類似しているかどうかを判断できない • 3つの評価尺度が考えられる • 評価尺度1 • スコア3のエピソードを何位に提示できたか • スコア3のエピソードが得られれば良いという場合 • 1位に提示したシステムは2位に提示したシステムよりも優れている NL185SLP71-6

実験 : 評価尺度(2/3) • 評価尺度2 • 上位10件中に類似エピソードをいくつ提示できたかについて評価 • 多くの類似エピソードを要求する場合 • 以下のMRRで評価 • 上位何件のエピソードを評価するか，ここでは10 • 番目のエピソードのスコア • 類似エピソードを何位に提示したかを区別しない • 評価尺度3ではこれを区別する NL185SLP71-6

実験 : 評価尺度 (3/3) • 評価尺度3 • 評価尺度2と同様の場合で，スコアの高いエピソードを何位に提示したかを区別する • 以下のような重み付きMRRで評価 • 上位何件のエピソードを評価するか，ここでは10 • 番目のエピソードのスコア NL185SLP71-6

結果 : 評価尺度1 • 単語正解率が低い場合，CN内にも正しい認識結果がなく，TFb-IDFbに比べて改善するのが難しい NL185SLP71-6

結果 : 評価尺度2,3 • 単語正解率の高いエピソードにおいて検索性能を改善できた • 特徴的なキーワードが得られた場合には，単語正解率が低くても検索性能を改善することができる • 評価尺度3ではより顕著な差となっている NL185SLP71-6

ポッドキャストを対象とした 類似エピソード検索手法