slide1
Download
Skip this Video
Download Presentation
検索ログを用いた意味知識獲得のためのブートストラップ手法

Loading in 2 Seconds...

play fullscreen
1 / 23

2007NAIST - PowerPoint PPT Presentation


  • 226 Views
  • Uploaded on

小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research. 検索ログを用いた意味知識獲得のためのブートストラップ手法. 自然言語処理合同研究会 [email protected] キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要. ポケモン 攻略法. 検索. 研究背景. ポケモンの攻略法 が知りたい. アプローチ. 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 2007NAIST' - ivanbritt


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

小町守(†)・鈴木久美(‡)

(†) 奈良先端科学技術大学院大学情報科学研究科

(‡) Microsoft Research

検索ログを用いた意味知識獲得のためのブートストラップ手法検索ログを用いた意味知識獲得のためのブートストラップ手法

自然言語処理合同研究会 [email protected]

slide2
キーワード検索は情報にアクセスする必須の手段キーワード検索は情報にアクセスする必須の手段

ユーザの興味を直接知ることが可能

アプリケーションには用語の意味カテゴリが重要

ポケモン 攻略法

検索

研究背景

ポケモンの攻略法

が知りたい

slide3
アプローチ
  • 半教師あり学習によって検索ログから意味カテゴリをブートストラップ
    • 意味カテゴリ
      • ユーザがよく聞く対象 (cf. Pasca and Durme 2007)
    • 検索ログ
      • Webデータそのものよりユーザの関心を反映
      • 短いが用語のカテゴライズには有効
      • ユーザが(非明示的に)単語分割を指定
    • ブートストラップ
      • 2項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005)
      • 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)
slide4
本研究による貢献
  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた
  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した
  • 単語分割の知識が不要
slide5
ブートストラップ手法
  • シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す
  • ある関係にある少量のシードを増やすことができる

コーパス

(検索ログ)

用語リスト

文脈パターン

ポケモン

ポケモン+攻略法

#+攻略法

ドラクエ

ドラクエ+攻略法

#:スロット

+:空白文字

ff

ff+攻略法

slide6
インスタンスの検索と文脈パターン抽出
  • 文脈パターンをスコアリングして上位のものを選択
    • 先行研究ではジェネリックパターンの扱いが異なる

ana

ana+予約

#+予約

実際の検索ログ

抽出パターン

インスタンス

インスタンス以外の文字列を文脈パターンとして使用=単語分割が不要

高適合率・低再現率

slide7
インスタンス・パターンの尺度
  • Sekine & Suzuki (2007)
  • Basilisk (Thelen and Riloff, 2002)

ジェネリックパターンには低いスコアを割り当て、処理をスキップ

ジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス

espresso
Espressoアルゴリズム
  • Espresso (Pantel and Pennacchiotti, 2006)
    • 少量のシードインスタンスからスタート
    • 以下のステップを反復
      • パターン導出
      • パターンのランキングと選択
      • インスタンス抽出

インスタンスとパターンの信頼度は相互に再帰的に定義

espresso9
Espresso アルゴリズムの問題点
  • ジェネリックパターン・インスタンスの取り扱い
    • Espressoで提案されている確信度(confidence)の尺度は検索ログデータではうまく行かなかった
    • ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい
  • 計算の効率
    • Espressoでは全てのパターンの信頼度を毎回計算する
tchai
Tchaiアルゴリズム
  • ジェネリックパターンやインスタンスのフィルター
    • ジェネリックパターン・インスタンスは単に用いない
    • 反復初期の適合率の向上に貢献
  • 信頼度の係数を修正
    • 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う
    • この修正がもっとも性能の改善に効果があった
  • 性能の改善
    • 最初のステップのときだけパターン導出を行う
    • TchaiはEspressoと比較して400倍高速に動作するように
slide12
実験
  • 日本語の検索ログ 2007/01-02
    • ユニーク 1M (異なりで 166M)
  • ターゲットとするカテゴリ
    • 検索ログで頻度トップ10,000クエリを人手で23カテゴリに分類したリストを使用 (2006/12のログから作成)
    • 旅行: 一番大きいカテゴリ (712 用語)
    • 金融: 一番小さいカテゴリ (240 用語)
slide13
実験結果

高適合率 (92.1%)

251の新しい用語を獲得

旅行

金融

人手の分類の曖昧性

旅行の一般用語も含む

slide14
抽出できたインスタンスの例

シードが与えられていないサブカテゴリも学習

slide15
パターン導出を省いた影響

パターン導出を省いても性能低下は見られず

slide16
各変更の影響

フィルタリングしたものはコンスタントにフィルタリングなしを上回った

係数に対する変更がもっとも適合率に影響

slide17
システムの相対再現率

旅行

金融

高適合率・高再現率

強いフィルタリングのために適合率は高いが再現率は低い

相対再現率 (Pantel et al., 2004)

slide19
累積適合率: 金融カテゴリ

BasiliskもEspressoも反復初期にジェネリックパターンの影響で低適合率

slide20
抽出パターン

BasiliskとEspressoは両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない

Tchaiは旅行ドメインに特徴的な文脈パターンを発見することができた

slide21
今後の方向
  • ブートストラップの解析的な意味づけ
    • リンク解析との関係(工藤さん)
  • カテゴリ中のサブタイプを分類
    • 現在は人手でやっているが自動でやりたい
slide22
まとめ
  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた
  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した
  • 単語分割の知識が不要
nlp dmitriy belenko christian koenig

Tchai

IJCNLP 2008: Hyderabad, India

本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、NLPグループのみなさん、Dmitriy Belenko, Christian Koenig両氏に感謝いたします。

ご静聴ありがとうございました

ad