小町守
Download
1 / 23

2007NAIST - PowerPoint PPT Presentation


  • 224 Views
  • Uploaded on

小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research. 検索ログを用いた意味知識獲得のためのブートストラップ手法. 自然言語処理合同研究会 [email protected] [email protected] ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要. ポケモン 攻略法. 検索. 研究背景. ポケモンの攻略法 が知りたい. アプローチ. 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 2007NAIST' - ivanbritt


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Slide1 l.jpg

小町守(†)・鈴木久美(‡)

(†) 奈良先端科学技術大学院大学情報科学研究科

(‡) Microsoft Research

検索ログを用いた意味知識獲得のためのブートストラップ手法

自然言語処理合同研究会 [email protected]


Slide2 l.jpg

[email protected][email protected]

ユーザの興味を直接知ることが可能

アプリケーションには用語の意味カテゴリが重要

ポケモン 攻略法

検索

研究背景

ポケモンの攻略法

が知りたい


Slide3 l.jpg
アプローチキーワード検索は情報にアクセスする必須の手段

  • 半教師あり学習によって検索ログから意味カテゴリをブートストラップ

    • 意味カテゴリ

      • ユーザがよく聞く対象 (cf. Pasca and Durme 2007)

    • 検索ログ

      • Webデータそのものよりユーザの関心を反映

      • 短いが用語のカテゴライズには有効

      • ユーザが(非明示的に)単語分割を指定

    • ブートストラップ

      • 2項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005)

      • 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)


Slide4 l.jpg
本研究による貢献キーワード検索は情報にアクセスする必須の手段

  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた

  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した

  • 単語分割の知識が不要


Slide5 l.jpg
ブートストラップ手法キーワード検索は情報にアクセスする必須の手段

  • シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す

  • ある関係にある少量のシードを増やすことができる

コーパス

(検索ログ)

用語リスト

文脈パターン

ポケモン

ポケモン+攻略法

#+攻略法

ドラクエ

ドラクエ+攻略法

#:スロット

+:空白文字

ff

ff+攻略法


Slide6 l.jpg
インスタンスの検索と文脈パターン抽出キーワード検索は情報にアクセスする必須の手段

  • 文脈パターンをスコアリングして上位のものを選択

    • 先行研究ではジェネリックパターンの扱いが異なる

ana

ana+予約

#+予約

実際の検索ログ

抽出パターン

インスタンス

インスタンス以外の文字列を文脈パターンとして使用=単語分割が不要

高適合率・低再現率


Slide7 l.jpg
インスタンス・パターンの尺度キーワード検索は情報にアクセスする必須の手段

  • Sekine & Suzuki (2007)

  • Basilisk (Thelen and Riloff, 2002)

ジェネリックパターンには低いスコアを割り当て、処理をスキップ

ジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス


Espresso l.jpg
Espressoキーワード検索は情報にアクセスする必須の手段アルゴリズム

  • Espresso (Pantel and Pennacchiotti, 2006)

    • 少量のシードインスタンスからスタート

    • 以下のステップを反復

      • パターン導出

      • パターンのランキングと選択

      • インスタンス抽出

インスタンスとパターンの信頼度は相互に再帰的に定義


Espresso9 l.jpg
Espresso キーワード検索は情報にアクセスする必須の手段アルゴリズムの問題点

  • ジェネリックパターン・インスタンスの取り扱い

    • Espressoで提案されている確信度(confidence)の尺度は検索ログデータではうまく行かなかった

    • ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい

  • 計算の効率

    • Espressoでは全てのパターンの信頼度を毎回計算する


Tchai l.jpg
Tchaiキーワード検索は情報にアクセスする必須の手段アルゴリズム

  • ジェネリックパターンやインスタンスのフィルター

    • ジェネリックパターン・インスタンスは単に用いない

    • 反復初期の適合率の向上に貢献

  • 信頼度の係数を修正

    • 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う

    • この修正がもっとも性能の改善に効果があった

  • 性能の改善

    • 最初のステップのときだけパターン導出を行う

    • TchaiはEspressoと比較して400倍高速に動作するように


Slide11 l.jpg
手法の比較キーワード検索は情報にアクセスする必須の手段


Slide12 l.jpg
実験キーワード検索は情報にアクセスする必須の手段

  • 日本語の検索ログ 2007/01-02

    • ユニーク 1M (異なりで 166M)

  • ターゲットとするカテゴリ

    • 検索ログで頻度トップ10,000クエリを人手で23カテゴリに分類したリストを使用 (2006/12のログから作成)

    • 旅行: 一番大きいカテゴリ (712 用語)

    • 金融: 一番小さいカテゴリ (240 用語)


Slide13 l.jpg
実験結果キーワード検索は情報にアクセスする必須の手段

高適合率 (92.1%)

251の新しい用語を獲得

旅行

金融

人手の分類の曖昧性

旅行の一般用語も含む


Slide14 l.jpg
抽出できたインスタンスの例キーワード検索は情報にアクセスする必須の手段

シードが与えられていないサブカテゴリも学習


Slide15 l.jpg
パターン導出を省いた影響キーワード検索は情報にアクセスする必須の手段

パターン導出を省いても性能低下は見られず


Slide16 l.jpg
各変更の影響キーワード検索は情報にアクセスする必須の手段

フィルタリングしたものはコンスタントにフィルタリングなしを上回った

係数に対する変更がもっとも適合率に影響


Slide17 l.jpg
システムの相対再現率キーワード検索は情報にアクセスする必須の手段

旅行

金融

高適合率・高再現率

強いフィルタリングのために適合率は高いが再現率は低い

相対再現率 (Pantel et al., 2004)


Slide18 l.jpg
累積適合率キーワード検索は情報にアクセスする必須の手段: 旅行ドメイン

Tchaiが適合率最高


Slide19 l.jpg
累積適合率キーワード検索は情報にアクセスする必須の手段: 金融カテゴリ

BasiliskもEspressoも反復初期にジェネリックパターンの影響で低適合率


Slide20 l.jpg
抽出パターンキーワード検索は情報にアクセスする必須の手段

BasiliskとEspressoは両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない

Tchaiは旅行ドメインに特徴的な文脈パターンを発見することができた


Slide21 l.jpg
今後の方向キーワード検索は情報にアクセスする必須の手段

  • ブートストラップの解析的な意味づけ

    • リンク解析との関係(工藤さん)

  • カテゴリ中のサブタイプを分類

    • 現在は人手でやっているが自動でやりたい


Slide22 l.jpg
まとめキーワード検索は情報にアクセスする必須の手段

  • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた

  • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した

  • 単語分割の知識が不要


Nlp dmitriy belenko christian koenig l.jpg

Tキーワード検索は情報にアクセスする必須の手段chai

IJCNLP 2008: Hyderabad, India

本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、NLPグループのみなさん、Dmitriy Belenko, Christian Koenig両氏に感謝いたします。

ご静聴ありがとうございました


ad