1 / 20

教師なし学習手法による意味解析研究の動向とその応用

教師なし学習手法による意味解析研究の動向とその応用. 自然言語処理合同研究会 2009 奈良先端科学技術大学院大学 吉川克正, 浅原正幸, 松本裕治. 近年の機械学習手法の守備範囲. 従来,分かち書きや品詞タグ付けなど,基本的な言語処理タスクだけを対象にしていた教師なし学習手法が,意味的な情報を扱うタスクにも応用され始めている. 依存構造解析. 述語項構造解析. 分かち書き. 質問応答, テキスト含意認識 etc. 品詞タグ付け. 共参照 ・ 照応解析. 談話構造解析. 基盤. 応用. 教師あり学習. 半教師あり学習. 教師なし学習.

morwen
Download Presentation

教師なし学習手法による意味解析研究の動向とその応用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 教師なし学習手法による意味解析研究の動向とその応用教師なし学習手法による意味解析研究の動向とその応用 自然言語処理合同研究会 2009奈良先端科学技術大学院大学吉川克正, 浅原正幸, 松本裕治

  2. 近年の機械学習手法の守備範囲 • 従来,分かち書きや品詞タグ付けなど,基本的な言語処理タスクだけを対象にしていた教師なし学習手法が,意味的な情報を扱うタスクにも応用され始めている 依存構造解析 述語項構造解析 分かち書き 質問応答,テキスト含意認識etc. 品詞タグ付け 共参照・照応解析 談話構造解析 基盤 応用 教師あり学習 半教師あり学習 教師なし学習

  3. 本研究で目的とする意味解析 • 共参照クラスタリング(=共参照解析)&事象表現クラスタリング(≒述語項構造解析)の教師なし学習手法によるJointアプローチ • Markov Logicの利用 argument 文 event1 mention1 event2 mention2 event3 mention3 ・・・ ・・・ 共参照クラスタ 事象表現クラスタ

  4. 調査対象となる参考文献 • 共参照クラスタリング • Joint Unsupervised Coreference Resolution with Markov Logic [Poon et al., 2008] • 事象表現クラスタリング • Unsupervised Learning of Narrative Schemas and their Schemas and their Participants [Chambers et al., 2009] • 関係クラスタリング • Unsupervised Semantic Parsing [Poon et al., 2009] • (Extracting Semantic Networks from Text Via Relational Clustering [Kok et al., 2008])

  5. Joint Unsupervised Coreference Resolution with Markov Logic[Poon and Domingos, 2008] • Markov Logicによるmentionの包括的クラスタリング • Markov Logicとは? • 一階述語論理とMarkov Networkの組み合わせ • logical KBとは異なりソフトな制約を利用できる • 制約には重みを付与大きい重みを持った制約 =>強い制約 • より多くの制約を満たす世界を探索する The Israelis regard the site as a shrine because to themit is sacred. {The Israelis, them} {the site as a shrine, shrine, it}

  6. 述語の定義と主要なFormula • mentionが代名詞ではないとき,head tを持つmentionはクラスタcに属する • mentionがクラスタcに属すとき,cの要素は同じEntity typeを持つ • mention x, yが同格関係にあれば,同じクラスタ cに属する

  7. 提案手法の結果 • H&K [Haghighi and Klein 2007]との比較 • Haghighi & Klein(2009)に逆転されたが,ルールベースの手法なので,同様のモジュールをMarkov Logicで記述することは可能

  8. Unsupervised Learning of NarrativeSchemas and their Participants [Chambers and Jurafsky, 2009] 目的: 文書中にある事象表現(event)クラスタリング • Narrative SchemasはNarrative Event Chains [Chambers et al. 2008]の拡張 • 複数のProtagonistに対するChainを統合して考える • 抽出されたeventをFrameNetのフレームと比較する(定性的評価) • Narrative Cloze(eventの穴埋め問題)による定量的評価

  9. 事象表現クラスタリングの概要 criminal, suspect police, agent • 共参照関係を既知として扱う • 類似度は関連したevent slot間の共起情報(PMI)(2つeventがどの程度,同じentityを共有しているか?) arrest charge arrest charge plead convict sentence arrest charge plead convict sentence guilty, innocent plead judge, jury convict sentence event slot • Narrative Event Chains • Narrative Schema 例: e(arrest,subject) e(charge,subject)

  10. 事象表現クラスタの特徴 • EventクラスタはFrameNetの格フレーム分類に類似 Semantic Role Labelingの代替として利用できるのでは? event1 event1' event1'' event2 event2' event2'' event3 event3' event3'' 同じ格を持つ動詞がグループ化されている • EventクラスタのEventには時間的順序を付与できる 共参照関係では難しい時系列のChainを構築可能 • Eventが持つargumentは一般に複数ある 包括的(Collective)な共参照解析に寄与できる可能性

  11. Unsupervised Semantic Parsing(USP) [Poon and Domingos, 2009] • 自然文を論理表現へ置換することで,述語論理による高度な推論を可能にする • 自然言語では様々な表現が考えられるが,人手で書き尽くすことは不可能 Microsoft buysPowerset. BUY(MICROSOFT,POWERSET) • Microsoft buysPowersetMicrosoft acquires semantic search engine PowersetPowersetis acquired by Microsoft CorporationThe Redmond software giant buysPowersetMicrosoft’s purchase ofPowerset, … 述語・項をクラスタリングして言い換え表現をカバーする

  12. USPの動作概要 • 入力:依存構造解析結果の論理式 • 汎用的な意味解析となる • 主形式 (木のノードに相当) • 項形式(木のエッジに相当) buys nsubj dobj • 出力:言い換え表現クラスタ及び,その確率分布 • 汎用的な意味解析となる CBUYS(n1)∧ABUYER(n1,n2) ∧ABOUGHT(n1,n3) ∧ CMICROSOFT(n2)∧ CPOWERSET(n3) Powerset Microsoft • 手法:可能な全ての意味解析の尤度が最大となるクラスタ割り当てを探索する • 近似を用いた効率的な尤度の計算 CBUYS ABUYER ABOUGHT CMICROSOFT CPOWERSET

  13. 定義される述語とFormula • core formとクラスタの関係を重み付けするFormula • p∈+c∧Form(p, +f)・・・クラスタcの要素であるpはcore form fを持つ • argumentの一貫性とクラスタの関係を重み付けするFormula • ArgType(p, i, +a)∧ArgForm(p, i, +f) ・・・pのi番目のargument fはtype aを持つ • Arg(p, i, p’)∧ArgType(p, i, +a)∧p’∈+c’・・・pのi番目のargumentはp'であり,そのtypeはa,またそのp'はクラスタc'に属するNumber(p, +a, +n) ・・・part pのn個のargumentはtype aである

  14. USPの学習 • Observed: Q(依存構造木から得られた論理表現) • Hidden: S意味構造(クラスタの割り当て) • Qについての対数尤度を最大化する • P(Q,S)を最大化する最適な重みは経験的相対頻度で計算できる • 例: p∈c∧Form(p,f)の重み=log(nc,f/nc) • nc,fはp∈cとForm(p,f)を満たすpartの数 • ncはp∈cを満たすpartの数 • 推論はP(S|Q)を最大化するクラスタ割り当てを選ぶ

  15. USPによるクラスタの特徴 • core formのクラスタ構成 investigate, examine, evaluate, analyze, study, assay   diminish, reduce, decrease, attenuate  synthesis, production, secretion, release   dramatically, substantially, significantly • 複合語も捉えられる amino acid, t cell, immune response, transcription factor, initiation site, binding site... 事象表現と述語項のクラスタリングをMarkov Logicで行うことは,計算量の点を工夫すれば十分に可能である

  16. Markov Logicによる共参照クラスタリングと事象表現クラスタリングのJointアプローチ • [Chambers et al.,2009]の問題点 • 共参照関係が解決していることを前提としているが,現実にはエラーが残っている(精度70~80%) • eventとargumentの同時クラスタリング Markov Logicによる関係クラスタリング [Kok et al.,2007] Cevent Cagent Cpatientはそれぞれクラスタを示し,あらゆるクラスタの組み合わせを考え,各々別の重みを付与することになる e = buys a = Microsoft p = Powerset Microsoft buysPowerset. BUY(MICROSOFT,POWERSET)

  17. 同時クラスタリングのアイデア • 共参照クラスタ=>eventクラスタへは情報があるが,その逆は困難   ソフトな制約の駆使 例1 (動作主と被動作主が同じ可能性は低い) e1 e2 e3 例2 e4 e5 (異なるevent chainにあるeventの動作主となっているargumentが共参照関係になる可能性は低い)

  18. 時間的順序関係の利用 • event chainに特有の時間的な距離を手がかりにする President Obama stated...he did...... The former President also did...Bush ... He...... However, now Mr. President makes... He... 間に前大統領の話が入ったせいで共参照関係を捉えにくい 時間的情報を考慮すれば捉えられる可能性が十分にある The former PresidentBush also did President Obamastated Mr. Presidentmakes 過去 未来

  19. 時間的順序を利用した制約 • 時間的に近いもの程,共参照関係になりやすい 例1 (event chain上で隣り合う動作主は同じ可能性が高い) 例2 (時間的に離れたeventのargumentになるmentionは共参照関係になりにくい) 問題はevent間における時間的順序関係推定の精度があまり高くないこと

  20. まとめ • 近年の教師なし学習手法を利用した研究に関して調査を行った • 共参照解析と事象表現クラスタリングを同時に行うアイデアを提案した(さらなるアイデアを募集中です) • 今後 • さらに詳細な調査 • 実装レベルの詳細な設計

More Related