slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得 PowerPoint Presentation
Download Presentation
ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

Loading in 2 Seconds...

play fullscreen
1 / 26

ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得 - PowerPoint PPT Presentation


  • 113 Views
  • Uploaded on

ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得. 小町守 (奈良先端大) 牧本慎平・内海慶・颯々野学( Yahoo! ) 2009-05-21 情報処理学会第 191 回自然言語処理研究会 第 76 回音声言語情報処理研究会. 背景 : 検索ユーザの関心を見つけることが重要. ターゲット広告 クエリ 書き換え ・クエリ 提案 ・クエリ 展開. 男性 既婚 30 代 就職活動中 …. !. ipod. ipot. search. ipot price. アイポット. iPot. i-pot. i-Pot. あいぽっと. 2.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得

小町守(奈良先端大)

牧本慎平・内海慶・颯々野学(Yahoo!)

2009-05-21

情報処理学会第191回自然言語処理研究会

第76回音声言語情報処理研究会

slide2
背景: 検索ユーザの関心を見つけることが重要
  • ターゲット広告
  • クエリ書き換え・クエリ提案・クエリ展開

男性

既婚

30代

就職活動中

!

ipod

ipot

search

ipot price

アイポット

iPot

i-pot

i-Pot

あいぽっと

2

slide3
コーパスに基づく意味カテゴリ獲得

入力

(コーパスから抽出する)

出力

単語

パターン

新しいクエリ

Hong Kong

Singapore

___ visa

Singapore visa

Australia

Singapore map

Hong Kong

___ history

China

Egypt

このステップを繰り返す

3

slide4

検索クエリログ

ブートストラップ

100万検索クエリ

検索ログ

DB

before

DBサイズ

巨大

検索ログ

DB

after

検索ログ

DB

検索クエリ

+

クリックログ

1,000万検索クエリ

本研究のポイント大規模化・クリックログ・グラフ理論の適用本研究のポイント大規模化・クリックログ・グラフ理論の適用

(以前作った)

Tchai

Quetchup

グラフ理論

quetchup query term chunk processor
Quetchup アルゴリズム(QUEry Term CHUnk Processor)

アップル

コンピュータ

クリック

情報獲得源としてクリックスルーログを用いる

グラフ理論による半教師ありアルゴリズム

並列分散環境を用いたラベル伝播の大規模化

5

slide6
ブートストラップにおいては意味ドリフトが大問題ブートストラップにおいては意味ドリフトが大問題

入力

(コーパスから抽出した)

出力

単語

パターン

新しい単語

UFJ

Singapore

___ visa

ANA

意味カテゴリが変わってしまった

ANA

___ airlines

United

Delta

次のステップにエラーが伝播してしまう

6

slide7
クリックスルーパターンを使って意味カテゴリを学習クリックスルーパターンを使って意味カテゴリを学習

入力

(クエリからクリックされたアドレス)

出力

単語

パターン

新しい単語

新加波

Singapore

en.wikipedia.org/wiki/Singapore

昭南島

同じアドレスをクリックする単語は同じ意味

Kuala Lumpur

新加波

www.singaporeair.com/saa/zh_CN

大規模に入手可能

検索クエリと比較して曖昧性が少ない

Penan

7

slide8

リンク解析(Googleの

PageRank等)の手法を

用いて計算できる

グラフ理論に基づく意味カテゴリ学習

  • ブートストラップアルゴリズムの一部はグラフ上の類似度計算と見なせる(Komachi et al. EMNLP-2008)

Singapore

似たパターンと共起するクエリは似ている

___ history

UFJ

___ map

Hong Kong

___ visa

ANA

___ airlines

China

8

slide9
クリックスルーによるインスタンス・パターン共起グラフクリックスルーによるインスタンス・パターン共起グラフ

http://www.cikm2009.org/

  • クエリ“Hong Kong”→http://en.wikipedia.org/wiki/Hong_Kong

Singapore

http://www.acl-ijcnlp-2009.org/

UFJ

http://www.singaporair.com/hk.jsp

Hong Kong

http://en.wikipedia.org/wiki/Hong_Kong

http://www.bk.mufg.jp/

ANA

http://www.china-airlines.co.jp/

China

http://www.ana.co.jp/

9

quetchup query term chunk processor1
Quetchup アルゴリズム(QUEry Term CHUnk Processor)

DBサイズ

巨大

DBサイズ

巨大

DBサイズ

巨大

Pierre-Simon Laplace (1749-1827)

情報獲得源としてクリックスルーログを用いる

グラフ理論による半教師ありアルゴリズム

並列分散環境を用いたラベル伝播の大規模化

10

zhou et al nips 2004
Zhou et al.(NIPS-2004)によるラベル伝播アルゴリズム

X はインスタンスの集合

xiはインスタンス

  • 類似度行列 W を以下のように定める。

if i != j and Wii = 0.

  • 行列            を構築する。

Dは要素 (i,i) が W のi番目の行の和となるような次数対角行列である。

  • 収束するまで

を反復する。αは(0,1)の範囲のパラメータである。

  • F*を列 {F(t)} の極限とし、各点 xiを

によってラベル付けする。

11

slide12
提案手法: ラプラシアンラベル伝播アルゴリズム
  • 類似度行列 W を右のように定める。

ただし、A はインスタンス・パターン共起行列である。

  • 正規化ラプラシアン行列              を構築する。

Dは要素 (i,i) が W のi番目の行の和となるような次数対角行列である。

  • 収束するまで

を繰り返す。ただしαは (0,1) の範囲のパラメータである。

  • F*を列 {F(t)} の極限とし、各点 xiを

によってラベル付けする。

並列分散計算が可能なように分解

グラフラプラシアンによって意味ドリフトの影響を抑制

12

f t f 1 i s 1 y
列 {F(t)} は F* = (1-α)(I-αS)-1Y に収束する

証明:

  • F(0) = Y とする。
  • 反復的に計算すると、
  • 0 < α < 1 かつ (-L) の固有値は [-1, 1] にあるので、
  • 従って

また、分類タスクでは、これは以下と同値である。

正則化ラプラシアンカーネル

(Smola and Kondor, COLT-2003)と一致する

13

slide14
グラフに基づく手法は単純だが、ウェブ文書などの大規模なデータにスケールするグラフに基づく手法は単純だが、ウェブ文書などの大規模なデータにスケールする

利点

  • 大規模な生データにスケールする(並列分散計算)
  • 数学的背景が確立している(PageRank のように求めることができる)

欠点

  • 計算効率(→近似することができる)
  • なにが「よい」グラフか自明ではない
  • 計算リソースが必要(CPU・ディスク・メモリ・などなど)
  • 扱うために(バッド)ノウハウが必要

14

slide16

DBサイズ

巨大

DBサイズ

巨大

DBサイズ

巨大

実験設定

検索ログ

  • 日本語ウェブ検索ログ2008年8月分
  • 頻度上位1,000万件(異なり)
  • 圧縮状態で60GB(展開すると300GB)

パターン

  • 2単語クエリパターン・クリックパターン

使用カテゴリ(Komachi and Suzuki, IJCNLP-2008)

16

slide17
実験の評価

比較手法

  • Tchai(クエリ)・Quetchup(クリック・クエリ)

アノテーション

  • 複数単語の場合は全ての単語についてドメインを付与
  • 1単語について複数のドメインを付与

評価尺度

  • 精度
  • 相対再現率(Pantel and Ravichandran, NAACL-2004)

RA|BはシステムAのBに対する相対再現率

CXはシステム X の出力中の正解の数

C は真の正解の数

PXはシステム X の精度

|X| はシステム X の入力の数

あるシステムから見た別のシステムのカバー率

slide18
旅行ドメインでの精度

クリックスルーを用いた

手法が一番高い精度

18

slide19
金融ドメインでの精度

金融ドメインもクリックスルー

ログを用いた手法が一番高い精度

19

slide20
旅行ドメインでの相対再現率

クリックスルーログを用いた手法は精度が高いだけではなく相対再現率も高い水準

20

slide22
抽出したクエリの上位1万件のランダムサンプル抽出したクエリの上位1万件のランダムサンプル

25

quetchup click
パラメータαによる Quetchupclickの性能の違い

クリックスルーグラフはクエリグラフより密なグラフを作るため、大きなαの値(初期ラベルをあまり信用しない)でも小さなαの値より精度が高かった

27

slide24
関連研究

Pasca et al. (WWW-2007, IJCAI-2007)

  • 自然言語処理の分野で初めてウェブ検索クエリログの重要性を説いた
  • 固有表現の属性を学習することに焦点を当てている

Talukdar et al. (EMNLP-2008), Pasca and Durme (ACL-2008)

  • ウェブ文書とウェブ検索クエリログを組み合わせる

Hagiwara and Suzuki (NAACL 2009)

  • グラフカーネル(ノイマンカーネルと拡散カーネル)をクエリ書き換えタスクに適用

28

slide25
まとめ
  • クリックスルーログは意味知識抽出に効果が高い情報源である
  • グラフ理論に基づく手法はブートストラップよりはるかに少ないパラメータで扱いやすく、理論的背景も確立されている

29

slide26
今後の予定
  • 自然言語処理タスクで有用な情報源についてさらに調査する
  • マルコフランダムウォークとラベル伝播手法の関係について考える
  • 大規模なカテゴリ・粒度の異なるカテゴリでの実験

30