検索ログを用いた意味知識獲得のためのブートストラップ手法 - PowerPoint PPT Presentation

Slide1 l.jpg
Download
1 / 23

  • 213 Views
  • Uploaded on
  • Presentation posted in: Pets / Animals

小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research. 検索ログを用いた意味知識獲得のためのブートストラップ手法. 自然言語処理合同研究会 2007@NAIST. キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要. ポケモン 攻略法. 検索. 研究背景. ポケモンの攻略法 が知りたい. アプローチ. 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ

I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.

Download Presentation

検索ログを用いた意味知識獲得のためのブートストラップ手法

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Slide1 l.jpg

小町守(†)・鈴木久美(‡)

(†) 奈良先端科学技術大学院大学情報科学研究科

(‡) Microsoft Research

検索ログを用いた意味知識獲得のためのブートストラップ手法

自然言語処理合同研究会 2007@NAIST


Slide2 l.jpg

キーワード検索は情報にアクセスする必須の手段

ユーザの興味を直接知ることが可能

アプリケーションには用語の意味カテゴリが重要

ポケモン 攻略法

検索

研究背景

ポケモンの攻略法

が知りたい


Slide3 l.jpg

アプローチ

  • 半教師あり学習によって検索ログから意味カテゴリをブートストラップ

    • 意味カテゴリ

      • ユーザがよく聞く対象 (cf. Pasca and Durme 2007)

    • 検索ログ

      • Webデータそのものよりユーザの関心を反映

      • 短いが用語のカテゴライズには有効

      • ユーザが(非明示的に)単語分割を指定

    • ブートストラップ

      • 2項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005)

      • 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)


Slide4 l.jpg

本研究による貢献

  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた

  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した

  • 単語分割の知識が不要


Slide5 l.jpg

ブートストラップ手法

  • シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す

  • ある関係にある少量のシードを増やすことができる

コーパス

(検索ログ)

用語リスト

文脈パターン

ポケモン

ポケモン+攻略法

#+攻略法

ドラクエ

ドラクエ+攻略法

#:スロット

+:空白文字

ff

ff+攻略法


Slide6 l.jpg

インスタンスの検索と文脈パターン抽出

  • 文脈パターンをスコアリングして上位のものを選択

    • 先行研究ではジェネリックパターンの扱いが異なる

ana

ana+予約

#+予約

実際の検索ログ

抽出パターン

インスタンス

インスタンス以外の文字列を文脈パターンとして使用=単語分割が不要

高適合率・低再現率


Slide7 l.jpg

インスタンス・パターンの尺度

  • Sekine & Suzuki (2007)

  • Basilisk (Thelen and Riloff, 2002)

ジェネリックパターンには低いスコアを割り当て、処理をスキップ

ジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス


Espresso l.jpg

Espressoアルゴリズム

  • Espresso (Pantel and Pennacchiotti, 2006)

    • 少量のシードインスタンスからスタート

    • 以下のステップを反復

      • パターン導出

      • パターンのランキングと選択

      • インスタンス抽出

インスタンスとパターンの信頼度は相互に再帰的に定義


Espresso9 l.jpg

Espresso アルゴリズムの問題点

  • ジェネリックパターン・インスタンスの取り扱い

    • Espressoで提案されている確信度(confidence)の尺度は検索ログデータではうまく行かなかった

    • ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい

  • 計算の効率

    • Espressoでは全てのパターンの信頼度を毎回計算する


Tchai l.jpg

Tchaiアルゴリズム

  • ジェネリックパターンやインスタンスのフィルター

    • ジェネリックパターン・インスタンスは単に用いない

    • 反復初期の適合率の向上に貢献

  • 信頼度の係数を修正

    • 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う

    • この修正がもっとも性能の改善に効果があった

  • 性能の改善

    • 最初のステップのときだけパターン導出を行う

    • TchaiはEspressoと比較して400倍高速に動作するように


Slide11 l.jpg

手法の比較


Slide12 l.jpg

実験

  • 日本語の検索ログ 2007/01-02

    • ユニーク 1M (異なりで 166M)

  • ターゲットとするカテゴリ

    • 検索ログで頻度トップ10,000クエリを人手で23カテゴリに分類したリストを使用 (2006/12のログから作成)

    • 旅行: 一番大きいカテゴリ (712 用語)

    • 金融: 一番小さいカテゴリ (240 用語)


Slide13 l.jpg

実験結果

高適合率 (92.1%)

251の新しい用語を獲得

旅行

金融

人手の分類の曖昧性

旅行の一般用語も含む


Slide14 l.jpg

抽出できたインスタンスの例

シードが与えられていないサブカテゴリも学習


Slide15 l.jpg

パターン導出を省いた影響

パターン導出を省いても性能低下は見られず


Slide16 l.jpg

各変更の影響

フィルタリングしたものはコンスタントにフィルタリングなしを上回った

係数に対する変更がもっとも適合率に影響


Slide17 l.jpg

システムの相対再現率

旅行

金融

高適合率・高再現率

強いフィルタリングのために適合率は高いが再現率は低い

相対再現率 (Pantel et al., 2004)


Slide18 l.jpg

累積適合率: 旅行ドメイン

Tchaiが適合率最高


Slide19 l.jpg

累積適合率: 金融カテゴリ

BasiliskもEspressoも反復初期にジェネリックパターンの影響で低適合率


Slide20 l.jpg

抽出パターン

BasiliskとEspressoは両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない

Tchaiは旅行ドメインに特徴的な文脈パターンを発見することができた


Slide21 l.jpg

今後の方向

  • ブートストラップの解析的な意味づけ

    • リンク解析との関係(工藤さん)

  • カテゴリ中のサブタイプを分類

    • 現在は人手でやっているが自動でやりたい


Slide22 l.jpg

まとめ

  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた

  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した

  • 単語分割の知識が不要


Nlp dmitriy belenko christian koenig l.jpg

Tchai

IJCNLP 2008: Hyderabad, India

本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、NLPグループのみなさん、Dmitriy Belenko, Christian Koenig両氏に感謝いたします。

ご静聴ありがとうございました


  • Login