検索ログを用いた意味知識獲得のためのブートストラップ手法

小町守(†)・鈴木久美(‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research 検索ログを用いた意味知識獲得のためのブートストラップ手法自然言語処理合同研究会 2007@NAIST

キーワード検索は情報にアクセスする必須の手段キーワード検索は情報にアクセスする必須の手段ユーザの興味を直接知ることが可能アプリケーションには用語の意味カテゴリが重要ポケモン　攻略法検索研究背景ポケモンの攻略法が知りたい

アプローチ • 半教師あり学習によって検索ログから意味カテゴリをブートストラップ • 意味カテゴリ • ユーザがよく聞く対象 (cf. Pasca and Durme 2007) • 検索ログ • Webデータそのものよりユーザの関心を反映 • 短いが用語のカテゴライズには有効 • ユーザが(非明示的に)単語分割を指定 • ブートストラップ • 2項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005) • 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)

本研究による貢献 • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した • 単語分割の知識が不要

ブートストラップ手法 • シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す • ある関係にある少量のシードを増やすことができるコーパス (検索ログ) 用語リスト文脈パターンポケモンポケモン+攻略法 #+攻略法ドラクエドラクエ+攻略法 #:スロット +:空白文字 ff ff+攻略法

インスタンスの検索と文脈パターン抽出 • 文脈パターンをスコアリングして上位のものを選択 • 先行研究ではジェネリックパターンの扱いが異なる ana ana+予約 #+予約実際の検索ログ抽出パターンインスタンスインスタンス以外の文字列を文脈パターンとして使用=単語分割が不要高適合率・低再現率

インスタンス・パターンの尺度 • Sekine & Suzuki (2007) • Basilisk (Thelen and Riloff, 2002) ジェネリックパターンには低いスコアを割り当て、処理をスキップジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス

Espressoアルゴリズム • Espresso (Pantel and Pennacchiotti, 2006) • 少量のシードインスタンスからスタート • 以下のステップを反復 • パターン導出 • パターンのランキングと選択 • インスタンス抽出インスタンスとパターンの信頼度は相互に再帰的に定義

Espresso アルゴリズムの問題点 • ジェネリックパターン・インスタンスの取り扱い • Espressoで提案されている確信度(confidence)の尺度は検索ログデータではうまく行かなかった • ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい • 計算の効率 • Espressoでは全てのパターンの信頼度を毎回計算する

Tchaiアルゴリズム • ジェネリックパターンやインスタンスのフィルター • ジェネリックパターン・インスタンスは単に用いない • 反復初期の適合率の向上に貢献 • 信頼度の係数を修正 • 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う • この修正がもっとも性能の改善に効果があった • 性能の改善 • 最初のステップのときだけパターン導出を行う • TchaiはEspressoと比較して400倍高速に動作するように

手法の比較

実験 • 日本語の検索ログ 2007/01-02 • ユニーク 1M (異なりで 166M) • ターゲットとするカテゴリ • 検索ログで頻度トップ10,000クエリを人手で23カテゴリに分類したリストを使用 (2006/12のログから作成) • 旅行: 一番大きいカテゴリ (712 用語) • 金融: 一番小さいカテゴリ (240 用語)

実験結果 高適合率 (92.1%) 251の新しい用語を獲得旅行金融人手の分類の曖昧性旅行の一般用語も含む

抽出できたインスタンスの例 シードが与えられていないサブカテゴリも学習

パターン導出を省いた影響 パターン導出を省いても性能低下は見られず

各変更の影響 フィルタリングしたものはコンスタントにフィルタリングなしを上回った係数に対する変更がもっとも適合率に影響

システムの相対再現率 旅行金融高適合率・高再現率強いフィルタリングのために適合率は高いが再現率は低い相対再現率 (Pantel et al., 2004)

累積適合率: 旅行ドメイン Tchaiが適合率最高

累積適合率: 金融カテゴリ BasiliskもEspressoも反復初期にジェネリックパターンの影響で低適合率

抽出パターン BasiliskとEspressoは両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない Tchaiは旅行ドメインに特徴的な文脈パターンを発見することができた

今後の方向 • ブートストラップの解析的な意味づけ • リンク解析との関係（工藤さん） • カテゴリ中のサブタイプを分類 • 現在は人手でやっているが自動でやりたい

まとめ • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した • 単語分割の知識が不要

Tchai IJCNLP 2008: Hyderabad, India 本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、NLPグループのみなさん、Dmitriy Belenko, Christian Koenig両氏に感謝いたします。ご静聴ありがとうございました

検索ログを用いた意味知識獲得のためのブートストラップ手法

検索ログを用いた意味知識獲得のためのブートストラップ手法

Presentation Transcript