270 likes | 409 Views
ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得. 小町守 (奈良先端大) 牧本慎平・内海慶・颯々野学( Yahoo! ) 2009-05-21 情報処理学会第 191 回自然言語処理研究会 第 76 回音声言語情報処理研究会. 背景 : 検索ユーザの関心を見つけることが重要. ターゲット広告 クエリ 書き換え ・クエリ 提案 ・クエリ 展開. 男性 既婚 30 代 就職活動中 …. !. ipod. ipot. search. ipot price. アイポット. iPot. i-pot. i-Pot. あいぽっと. 2.
E N D
ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 小町守(奈良先端大) 牧本慎平・内海慶・颯々野学(Yahoo!) 2009-05-21 情報処理学会第191回自然言語処理研究会 第76回音声言語情報処理研究会
背景: 検索ユーザの関心を見つけることが重要 • ターゲット広告 • クエリ書き換え・クエリ提案・クエリ展開 男性 既婚 30代 就職活動中 … ! ipod ipot search ipot price アイポット iPot i-pot i-Pot あいぽっと 2
コーパスに基づく意味カテゴリ獲得 入力 (コーパスから抽出する) 出力 単語 パターン 新しいクエリ Hong Kong Singapore ___ visa Singapore visa Australia Singapore map Hong Kong ___ history China Egypt このステップを繰り返す 3
検索クエリログ ブートストラップ 100万検索クエリ 検索ログ DB before DBサイズ 巨大 検索ログ DB after 検索ログ DB 検索クエリ + クリックログ 1,000万検索クエリ 本研究のポイント大規模化・クリックログ・グラフ理論の適用 (以前作った) Tchai Quetchup グラフ理論
Quetchup アルゴリズム(QUEry Term CHUnk Processor) アップル コンピュータ クリック 情報獲得源としてクリックスルーログを用いる グラフ理論による半教師ありアルゴリズム 並列分散環境を用いたラベル伝播の大規模化 5
ブートストラップにおいては意味ドリフトが大問題ブートストラップにおいては意味ドリフトが大問題 入力 (コーパスから抽出した) 出力 単語 パターン 新しい単語 UFJ Singapore ___ visa ANA 意味カテゴリが変わってしまった ANA ___ airlines United Delta 次のステップにエラーが伝播してしまう 6
クリックスルーパターンを使って意味カテゴリを学習クリックスルーパターンを使って意味カテゴリを学習 入力 (クエリからクリックされたアドレス) 出力 単語 パターン 新しい単語 新加波 Singapore en.wikipedia.org/wiki/Singapore 昭南島 同じアドレスをクリックする単語は同じ意味 Kuala Lumpur 新加波 www.singaporeair.com/saa/zh_CN 大規模に入手可能 検索クエリと比較して曖昧性が少ない Penan 7
リンク解析(Googleの PageRank等)の手法を 用いて計算できる グラフ理論に基づく意味カテゴリ学習 ? • ブートストラップアルゴリズムの一部はグラフ上の類似度計算と見なせる(Komachi et al. EMNLP-2008) Singapore 似たパターンと共起するクエリは似ている ___ history UFJ ___ map Hong Kong ___ visa ANA ___ airlines China 8
クリックスルーによるインスタンス・パターン共起グラフクリックスルーによるインスタンス・パターン共起グラフ http://www.cikm2009.org/ • クエリ“Hong Kong”→http://en.wikipedia.org/wiki/Hong_Kong Singapore http://www.acl-ijcnlp-2009.org/ UFJ http://www.singaporair.com/hk.jsp Hong Kong http://en.wikipedia.org/wiki/Hong_Kong http://www.bk.mufg.jp/ ANA http://www.china-airlines.co.jp/ China http://www.ana.co.jp/ 9
Quetchup アルゴリズム(QUEry Term CHUnk Processor) DBサイズ 巨大 DBサイズ 巨大 DBサイズ 巨大 Pierre-Simon Laplace (1749-1827) 情報獲得源としてクリックスルーログを用いる グラフ理論による半教師ありアルゴリズム 並列分散環境を用いたラベル伝播の大規模化 10
Zhou et al.(NIPS-2004)によるラベル伝播アルゴリズム X はインスタンスの集合 xiはインスタンス • 類似度行列 W を以下のように定める。 if i != j and Wii = 0. • 行列 を構築する。 Dは要素 (i,i) が W のi番目の行の和となるような次数対角行列である。 • 収束するまで を反復する。αは(0,1)の範囲のパラメータである。 • F*を列 {F(t)} の極限とし、各点 xiを によってラベル付けする。 11
提案手法: ラプラシアンラベル伝播アルゴリズム • 類似度行列 W を右のように定める。 ただし、A はインスタンス・パターン共起行列である。 • 正規化ラプラシアン行列 を構築する。 Dは要素 (i,i) が W のi番目の行の和となるような次数対角行列である。 • 収束するまで を繰り返す。ただしαは (0,1) の範囲のパラメータである。 • F*を列 {F(t)} の極限とし、各点 xiを によってラベル付けする。 並列分散計算が可能なように分解 グラフラプラシアンによって意味ドリフトの影響を抑制 12
列 {F(t)} は F* = (1-α)(I-αS)-1Y に収束する 証明: • F(0) = Y とする。 • 反復的に計算すると、 • 0 < α < 1 かつ (-L) の固有値は [-1, 1] にあるので、 • 従って また、分類タスクでは、これは以下と同値である。 正則化ラプラシアンカーネル (Smola and Kondor, COLT-2003)と一致する 13
グラフに基づく手法は単純だが、ウェブ文書などの大規模なデータにスケールするグラフに基づく手法は単純だが、ウェブ文書などの大規模なデータにスケールする 利点 • 大規模な生データにスケールする(並列分散計算) • 数学的背景が確立している(PageRank のように求めることができる) 欠点 • 計算効率(→近似することができる) • なにが「よい」グラフか自明ではない • 計算リソースが必要(CPU・ディスク・メモリ・などなど) • 扱うために(バッド)ノウハウが必要 14
実験 検索ログからの意味カテゴリ学習 15
DBサイズ 巨大 DBサイズ 巨大 DBサイズ 巨大 実験設定 検索ログ • 日本語ウェブ検索ログ2008年8月分 • 頻度上位1,000万件(異なり) • 圧縮状態で60GB(展開すると300GB) パターン • 2単語クエリパターン・クリックパターン 使用カテゴリ(Komachi and Suzuki, IJCNLP-2008) 16
実験の評価 比較手法 • Tchai(クエリ)・Quetchup(クリック・クエリ) アノテーション • 複数単語の場合は全ての単語についてドメインを付与 • 1単語について複数のドメインを付与 評価尺度 • 精度 • 相対再現率(Pantel and Ravichandran, NAACL-2004) RA|BはシステムAのBに対する相対再現率 CXはシステム X の出力中の正解の数 C は真の正解の数 PXはシステム X の精度 |X| はシステム X の入力の数 あるシステムから見た別のシステムのカバー率
旅行ドメインでの精度 クリックスルーを用いた 手法が一番高い精度 18
金融ドメインでの精度 金融ドメインもクリックスルー ログを用いた手法が一番高い精度 19
旅行ドメインでの相対再現率 クリックスルーログを用いた手法は精度が高いだけではなく相対再現率も高い水準 20
抽出したクエリの上位1万件のランダムサンプル抽出したクエリの上位1万件のランダムサンプル 25
パラメータαによる Quetchupclickの性能の違い クリックスルーグラフはクエリグラフより密なグラフを作るため、大きなαの値(初期ラベルをあまり信用しない)でも小さなαの値より精度が高かった 27
関連研究 Pasca et al. (WWW-2007, IJCAI-2007) • 自然言語処理の分野で初めてウェブ検索クエリログの重要性を説いた • 固有表現の属性を学習することに焦点を当てている Talukdar et al. (EMNLP-2008), Pasca and Durme (ACL-2008) • ウェブ文書とウェブ検索クエリログを組み合わせる Hagiwara and Suzuki (NAACL 2009) • グラフカーネル(ノイマンカーネルと拡散カーネル)をクエリ書き換えタスクに適用 28
まとめ • クリックスルーログは意味知識抽出に効果が高い情報源である • グラフ理論に基づく手法はブートストラップよりはるかに少ないパラメータで扱いやすく、理論的背景も確立されている 29
今後の予定 • 自然言語処理タスクで有用な情報源についてさらに調査する • マルコフランダムウォークとラベル伝播手法の関係について考える • 大規模なカテゴリ・粒度の異なるカテゴリでの実験 30