slide1 l.
Download
Skip this Video
Download Presentation
検索ログを用いた意味知識獲得のための ブートストラップ手法

Loading in 2 Seconds...

play fullscreen
1 / 26

検索ログを用いた意味知識獲得のための ブートストラップ手法 - PowerPoint PPT Presentation


  • 266 Views
  • Uploaded on

小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research. 検索ログを用いた意味知識獲得のための ブートストラップ手法. 電子情報通信学会 言語理解とコミュニケーション研究会. キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要. ポケモン 攻略法. 検索. 研究背景. ポケモンの攻略法 が知りたい. アプローチ. 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '検索ログを用いた意味知識獲得のための ブートストラップ手法' - RoyLauris


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

小町守(†)・鈴木久美(‡)

(†) 奈良先端科学技術大学院大学情報科学研究科

(‡) Microsoft Research

検索ログを用いた意味知識獲得のためのブートストラップ手法検索ログを用いた意味知識獲得のためのブートストラップ手法

電子情報通信学会言語理解とコミュニケーション研究会

slide2
キーワード検索は情報にアクセスする必須の手段キーワード検索は情報にアクセスする必須の手段

ユーザの興味を直接知ることが可能

アプリケーションには用語の意味カテゴリが重要

ポケモン 攻略法

検索

研究背景

ポケモンの攻略法

が知りたい

slide3
アプローチ
  • 半教師あり学習によって検索ログから意味カテゴリをブートストラップ
    • 意味カテゴリ
      • ユーザがよく聞く対象 (cf. Pasca and Durme 2007)
    • 検索ログ
      • Webデータそのものよりユーザの関心を反映
      • 短いが用語のカテゴライズには有効
      • ユーザが(非明示的に)単語分割を指定
    • ブートストラップ
      • 2項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005)
      • 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)
slide4
本研究による貢献
  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた
  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した
  • 単語分割の知識が不要
slide5
目次
  • 概要
  • 関連研究
  • Tchaiアルゴリズム
  • 実験
  • まとめ
slide6
ブートストラップ手法
  • シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す
  • ある関係にある少量のシードを増やすことができる

コーパス

(検索ログ)

用語リスト

文脈パターン

ポケモン

ポケモン+攻略法

#+攻略法

ドラクエ

ドラクエ+攻略法

#:スロット

+:空白文字

ff

ff+攻略法

slide7
インスタンスの検索と文脈パターン抽出
  • 文脈パターンをスコアリングして上位のものを選択
    • 先行研究ではジェネリックパターンの扱いが異なる

ana

ana+予約

#+予約

実際の検索ログ

抽出パターン

インスタンス

インスタンス以外の文字列を文脈パターンとして使用=単語分割が不要

高適合率・低再現率

slide8
インスタンス・パターンの尺度
  • Sekine & Suzuki (2007)
  • Basilisk (Thelen and Riloff, 2002)

ジェネリックパターンには低いスコアを割り当て、処理をスキップ

ジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス

espresso
Espressoアルゴリズム
  • Espresso (Pantel and Pennacchiotti, 2006)
    • 少量のシードインスタンスからスタート
    • 以下のステップを反復
      • パターン導出
      • パターンのランキングと選択
      • インスタンス抽出

インスタンスとパターンの信頼度は相互に再帰的に定義

espresso10
Espresso アルゴリズムの問題点
  • ジェネリックパターン・インスタンスの取り扱い
    • Espressoで提案されている確信度(confidence)の尺度は検索ログデータではうまく行かなかった
    • ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい
  • 計算の効率
    • Espressoでは全てのパターンの信頼度を毎回計算する
tchai
Tchaiアルゴリズム
  • ジェネリックパターンやインスタンスのフィルター
    • ジェネリックパターン・インスタンスは単に用いない
    • 反復初期の適合率の向上に貢献
  • 信頼度の係数を修正
    • 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う
    • この修正がもっとも性能の改善に効果があった
  • 性能の改善
    • 最初のステップのときだけパターン導出を行う
    • TchaiはEspressoと比較して400倍高速に動作するように
slide13
目次
  • 概要
  • 関連研究
  • Tchaiアルゴリズム
  • 実験
  • まとめ
slide14
実験
  • 日本語の検索ログ 2007/01-02
    • ユニーク 1M (異なりで 166M)
  • ターゲットとするカテゴリ
    • 検索ログで頻度トップ10,000クエリを人手で23カテゴリに分類したリストを使用 (2006/12のログから作成)
    • 旅行: 一番大きいカテゴリ (712 用語)
    • 金融: 一番小さいカテゴリ (240 用語)
slide15
実験結果

高適合率 (92.1%)

旅行

金融

251の新しい用語を獲得

人手の分類の曖昧性

旅行に関係する一般用語も含む

slide16
抽出できたインスタンスの例

シードが与えられていないサブカテゴリも学習

slide17
各変更の影響

フィルタリングしたものはコンスタントにフィルタリングなしを上回った

係数に対する変更がもっとも適合率に影響

slide19
累積適合率: 金融カテゴリ

BasiliskもEspressoも反復初期にジェネリックパターンの影響で低適合率

slide20
抽出パターンの例

BasiliskとEspressoは両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない

Tchaiは旅行ドメインに特徴的な文脈パターンを発見することができた

slide21
まとめ
  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた
  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した
  • 単語分割の知識が不要
slide22
今後の方向
  • クラスタリングと組み合わせる
    • 自動クラスタリングの結果を用いて各クラスタに属する用語をさらに増やす
  • カテゴリ中のサブタイプを分類
    • 階層的にブートストラップ可能
nlp dmitriy belenko christian koenig

Tchai

IJCNLP 2008: Hyderabad, India

本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、NLPグループのみなさん、Dmitriy Belenko, Christian Koenig両氏に感謝いたします。

ご静聴ありがとうございました

slide25
パターン導出を省いた影響

パターン導出を省いても性能低下は見られず

slide26
システムの相対再現率

旅行

金融

高適合率・高再現率

強いフィルタリングのために適合率は高いが再現率は低い

相対再現率 (Pantel et al., 2004)