330 likes | 425 Views
ポッドキャストを対象とした 類似エピソード検索手法. 水野 淳太 † 緒方 淳 ‡ 後藤 真孝 ‡ † 奈良先端科学技術大学院大学 (NAIST) ‡ 産業技術総合研究所 (AIST). 背景 : 音声に対する全文検索. ウェブ上の音声データ Youtube をはじめとする動画共有サービス インターネットラジオ 音声を含むデータの急増 音声に対して ,テキスト検索の google のように 全文検索を行う 重要性が増している. 背景 : ポッドキャスト. 音声ファイルをウェブ上で配布し,メディアプレイヤなどで視聴する音声版ブログ
E N D
ポッドキャストを対象とした類似エピソード検索手法ポッドキャストを対象とした類似エピソード検索手法 水野 淳太†緒方 淳‡後藤 真孝‡ †奈良先端科学技術大学院大学(NAIST) ‡産業技術総合研究所(AIST)
背景 : 音声に対する全文検索 • ウェブ上の音声データ • Youtubeをはじめとする動画共有サービス • インターネットラジオ • 音声を含むデータの急増 • 音声に対して,テキスト検索のgoogleのように全文検索を行う重要性が増している NL185SLP71-6
背景 : ポッドキャスト • 音声ファイルをウェブ上で配布し,メディアプレイヤなどで視聴する音声版ブログ • 個人の日記やニュースなど,多くの種類がある • 一連のエピソードと呼ばれる音声データに加え,メタデータも付与されている メタデータ タイトル : 「JUNK 爆笑問題 カーボーイ」 概要 : 「レギュラー番組や雑誌の連載を多数抱える超売れっ子・・・ エピソード1 タイトル : 「2006年04月04日」 MP3 : http://podcast.tbsradio.jp/bakusho/files/20060404.mp3 エピソード… NL185SLP71-6
背景 : PodCastle • ポッドキャストを音声認識することで,テキストで検索,閲覧,認識結果の訂正が可能なシステム • ウェブ検索と同じように全文検索が行える NL185SLP71-6
目的 : 類似エピソード検索 • 動画共有サイトでは,メタデータやユーザの視聴履歴をもとに類似動画を提示 • ポッドキャストはメタデータが不十分な場合が多い • エピソードごとに付与されていない場合もある • 視聴履歴は必ずしも関連性を示すとは限らない • メタデータや視聴履歴を用いず,音声認識結果のみを利用して類似エピソードを検索する NL185SLP71-6
類似ポッドキャスト 森永卓郎 経済コラム …証券のペーパーレス化,電子化というのが今どんどん進められている… 伊藤洋一のビジネストレンド …郵便局の支払いで領収書がネットで使ったらもらえない… くりらじ PODCAST …無線ICタグで実現できることは… …小さな無線チップで… 同一ポッドキャスト 傾向の異なるポッドキャスト 目的 : 類似エピソード検索例 伊藤洋一のビジネストレンド …無線ICタグを埋め込んで,ユビキタスコミュニケータを使って… …郵便局の振込をネットでやったら領収証が出ないんですよ… NL185SLP71-6
PodCastle ポッドキャストA ポッドキャストB エピソード エピソード 手法 : 類似エピソード検索手法 類似度の計算 PodCastleを使ってユーザによる検索 キーワードセットの抽出 エピソード0 エピソード1 エピソード2 エピソード3 キーワード セット0 キーワード セット1 キーワード セット2 キーワード セット3 エピソード0 類似 エピソード2 NL185SLP71-6
手法 : キーワード抽出 • TF-IDF法を利用 • 音声認識結果の1-bestでは,正しいキーワードが抽出できない場合がある 振り込み 上司 には 教習所 が 右端 に 付いている キーワード? キーワード? NL185SLP71-6
0.8 0.4 振り込み には が 右端 に 付いている 0.15 0.35 刷り込み 用紙 用紙 領収証 は 右足 着いている 0.05 0.25 吸い込み 上司 領収書 領収書 だ 手法 : confusion network(CN) 振り込み • 1-best以外の認識候補も利用できる • 正しい認識結果が含まれている可能性がある • 各候補には音声認識の信頼度が付与されている • 確率値となっているので,これをTF-IDFの計算に利用できる 上司 には 教習所 が 右端 に 付いている NL185SLP71-6
手法 : CNを利用したTF-IDF • CNによってすべての単語には音声認識の信頼度が付与される • TF-IDFに適用 • 胡ら(2008)の研究では • 数単語からなるクエリと,音声ドキュメントとの比較 • 本研究では • 音声ドキュメント同士の比較 NL185SLP71-6
手法 : TFb-IDFb 振り込み • 音声認識の1-bestに対して計算 • CNの信頼度も利用しない • 本研究のベースライン 上司 には 教習所 が 右端 に 付いている 刷り込み 用紙 領収証 は 右足 着いている 吸い込み 上司 領収書 だ NL185SLP71-6
0.8 0.4 0.15 0.35 0.05 0.25 手法 : TFp-IDFn 振り込み • TFp • CNの信頼度を利用して計算 • IDFn • エピソード中に,1-bestも含めた全単語が表れたとして計算 上司 には 教習所 が 右端 に 付いている 刷り込み 用紙 領収証 は 右足 着いている 吸い込み 上司 領収書 だ NL185SLP71-6
0.8 0.4 0.5 0.15 0.3 0.35 0.05 0.2 0.25 領収書 領収証 教習所 手法 : TFp-IDFp 振り込み • TFp • CNの信頼度を利用して計算 • IDFp • ある単語の,CNにおける信頼度の最大値を,ドキュメント数として利用する • 同じ単語がCN内に何度も表れる場合が多い 上司 には 教習所 が 右端 に 付いている 刷り込み 用紙 領収証 は 右足 着いている 吸い込み 上司 領収書 だ NL185SLP71-6
手法 : TF-IDFのまとめ • TFb-IDFb • 音声認識結果の1-bestに対してTF-IDFを計算したベースライン • TFp-IDFn • TFについて,CNの信頼度を利用 • IDFについて,CNの他の認識候補は利用するが,信頼度は利用しない • TFp-IDFp • TF,IDFともにCNの信頼度を利用 NL185SLP71-6
手法 : 類似エピソード検索 • エピソードについて,各キーワードを次元とし,TF-IDFをその重みとしたベクトルで表現 • エピソード間の類似度はベクトルの余弦で計算 • コサイン類似度 NL185SLP71-6
実験 • PodCastle内の12,184個のエピソードに対して実験 • CNで利用する認識候補は最大10個 • キーワードは上位100個 • 類似エピソードとして上位10件を提示 利用したエピソードは 大きく3種類に分けられた NL185SLP71-6
実験 • 評価は人手で行い,以下のようなスコアを与えた • 3 : 最も類似している • 2 : 類似している • 1 : 少し類似している • 0 : 類似していない • 人手による評価はコストがかかる • 多くの結果から総合的にどのTF-IDFが良いか,という議論はできない • 3種類の評価尺度 NL185SLP71-6
結果 : 評価尺度1 • スコア3のエピソードが1つ得られればよい場合 • スコア3のエピソードを何位に提示できたか • 単語正解率が低い場合,CN内にも正しい認識結果がなく,TFb-IDFbに比べて改善するのが難しい NL185SLP71-6
結果 : 評価尺度2 • 多くの類似エピソードを要求する場合 • 上位10件中に,いくつの類似エピソードを提示できたかについて,スコアのMRRで評価 • 単語正解率の高いエピソードにおいて,検索性能に改善が見られた NL185SLP71-6
結果 : 評価尺度3 • 多くの類似エピソードを要求する場合 • 尺度2に加えて,スコアの高いエピソードを何位に提示できたかを区別 → 順位の重みを加える • キーワードがうまく得られた場合,単語正解率が低くても,検索性能に改善が見られた NL185SLP71-6
考察 (1/2) • 単語正解率がある程度高い場合は,CNを利用してよい検索が行える • CN内に正しい認識結果が含まれている可能性が高い • 本研究で改善できると考えられるエピソードである • 単語正解率が低くても,良いキーワードが得られれば,news2のように改善できる場合もある NL185SLP71-6
考察 (2/2) • TFp-IDFnとTFp-IDFpの比較 • IDFnでは音声認識の信頼度に関わらず,すべての単語を1回の出現としてカウントする • IDFnの方が特定性の高い単語をキーワードとしやすい • TFp-IDFnの方が特徴的なキーワードが得られたが,特徴的すぎるために類似性の判定には有用ではない • TFp-IDFnは,特定性は高くないがキーワードとして有用な単語に対して低い重みをつけてしまう • TFp-IDFpの方が検索において優れていた理由 NL185SLP71-6
まとめと今後の課題 • 類似エピソード検索において,CNを利用してTF-IDFを定式化しキーワード抽出を行うことで,高い検索性能が得られる • 単語正解率が低い場合は,認識候補が悪影響を与えている • TF-IDFの定式化で,TFとIDFの単純な積算ではなく,2つの重みを調整することで改善できると考えられる • CN全体からエピソードの単語正解率が推測できる可能性 • 単語正解率によって異なるTF-IDFを利用することができると考えられる • 類似度によってクラスタリングを行うことで,内容に基づいた分類が行える可能性がある • ユーザにとって,より多くのエピソードを視聴する動機付けとなる NL185SLP71-6
E H G A J A G D I sil sil C sil I F C F sil sil B D F H 2段階の音響的クラスタリング F A C H J 0.81 0.56 0.97 0.80 0.98 [PodCastleでの表示] • 各区間ごとの競合関係が明確化 D G I • 各リンクには,各区間 ごとの事後確率を算出 0.12 0.30 0.03 0.20 0.02 B E 0.56 0.07 手法 : confusion network(CN) 発話 開始 発話 終了 • 非線形な表現の単語グラフ NL185SLP71-6
手法 : TFの定式化 • 単語 について • 音声認識結果の1-bestに対して一般的なTFを定式化 TFb • ドキュメント内の単語 の出現回数 • CNの事後確率を利用して定式化 TFp • エピソード内の位置 における事後確率 NL185SLP71-6
手法 : IDFの定式化 • 音声認識結果の1-bestに対して一般的なIDFを定式化 IDFb • 単語 の出現するエピソード数 • 全エピソード数 • CNを利用し事後確率は利用しない場合 IDFn • 信頼度に関わらず,一回の出現を一回と数える • CNの事後確率を利用する場合 IDFp • エピソード における単語 の最大確率値 NL185SLP71-6
実験 : 評価尺度(1/3) • 評価は人手で行い以下のようなスコアを与えた • 3 : 最も類似している • 2 : 類似している • 1 : 少し類似している • 0 : 類似していない • 音声なので,実際に視聴するまで類似しているかどうかを判断できない • 3つの評価尺度が考えられる • 評価尺度1 • スコア3のエピソードを何位に提示できたか • スコア3のエピソードが得られれば良いという場合 • 1位に提示したシステムは2位に提示したシステムよりも優れている NL185SLP71-6
実験 : 評価尺度(2/3) • 評価尺度2 • 上位10件中に類似エピソードをいくつ提示できたかについて評価 • 多くの類似エピソードを要求する場合 • 以下のMRRで評価 • 上位何件のエピソードを評価するか,ここでは10 • 番目のエピソードのスコア • 類似エピソードを何位に提示したかを区別しない • 評価尺度3ではこれを区別する NL185SLP71-6
実験 : 評価尺度 (3/3) • 評価尺度3 • 評価尺度2と同様の場合で,スコアの高いエピソードを何位に提示したかを区別する • 以下のような重み付きMRRで評価 • 上位何件のエピソードを評価するか,ここでは10 • 番目のエピソードのスコア NL185SLP71-6
結果 : 評価尺度1 • 単語正解率が低い場合,CN内にも正しい認識結果がなく,TFb-IDFbに比べて改善するのが難しい NL185SLP71-6
結果 : 評価尺度2,3 • 単語正解率の高いエピソードにおいて検索性能を改善できた • 特徴的なキーワードが得られた場合には,単語正解率が低くても検索性能を改善することができる • 評価尺度3ではより顕著な差となっている NL185SLP71-6