Markov Logic による日本語述語項構造解析

Markov Logicによる日本語述語項構造解析 奈良先端科学技術大学院大学吉川克正, 浅原正幸, 松本裕治 2010.11.18.

日本語述語項構造解析の概要 • 格の解析による局所的な意味情報の付与 • 「誰が，何を，何に対して，どうした」ガヲライオンがシマウマを食べた 1) ガガヲライオンに追いかけられたシマウマが崖から落ちた 2) • 本研究の解析対象はガ格，ヲ格，ニ格の３種類

提案手法の特徴 • ３つの格を一つのモデルで推定 • 格間での矛盾を排除する • 文内の述語，項候補を全て考慮して解析 • 文内で最も矛盾の少ない状態を探索する文内の全体最適化手法により，論理的矛盾を軽減するガヲライオンがシマウマを食べた 1) ライオンに追いかけられたシマウマが崖から落ちた 2)

提案手法の特徴 • ３つの格を一つのモデルで推定 • 格間での矛盾を排除する • 文内の述語，項候補を全て考慮して解析 • 文内で最も矛盾の少ない状態を探索する文内の全体最適化手法により，論理的矛盾を軽減するガヲライオンがシマウマを食べた 1) ヲガライオンに追いかけられたシマウマが崖から落ちた 2)

提案手法の特徴 • ３つの格を一つのモデルで推定 • 格間での矛盾を排除する • 文内の述語，項候補を全て考慮して解析 • 文内で最も矛盾の少ない状態を探索する文内の全体最適化手法により，論理的矛盾を軽減するガヲライオンがシマウマを食べた 1) ヲガガライオンに追いかけられたシマウマが崖から落ちた 2)

関連研究と本研究の違い① • ３つの格を一つのモデルで同時推定する集合的アプローチ • 従来手法[平ら，2008][今村ら，2009]では格ごとに個別のモデルを構築 • 従来手法（格個別モデル） • 本研究の手法（格同時推定モデル）項候補集合文内項候補集合 NP2 NP2 NP1 NP3 NP4 NP5 null NP1 NP3 NP4 NP5 null 全体最適化モデルガ格モデルヲ格モデルニ格モデルガヲニ NP2 NP1 null NP2 NP4 null 格ごとに個別のモデルを構築３種類の格を同時に考慮して推定

関連研究と本研究の違い② • 文間述語-項関係は扱わない • 従来手法では文内，文間の同定を試みている • 集合的アプローチが文書全体では計算量の点で困難なため • 大規模データを利用しない • [今村ら，2009]では新聞１２年分を利用して言語モデルを構築している • Markov Logicでは実数値素性の扱いが難しい

統計的関係学習の枠組み Markov Networkのテンプレート言語 Log-Linear Modelを構築する Markov Logic Network は(φ, w)の集合M φ : は一階述語論理の式 w : は実数値の重みハードな制約だけでなくソフトな制約を定義できる　（重み大  強い制約） Markov Logic[Richardson and Domingos, 2006] 展開された論理式の真偽（ニ値の素性）述語（可能世界）論理式重み定数正規化項

Markov Logicによる意味役割付与[Meza-Ruiz et al., 2009] • CoNLL 2009 Shared Task を基にした英語の意味役割付与(SRL) • 述語同定，述語語義曖昧性解消，項同定，意味役割付与を同時に行う意味役割付与（格同定）述語同定語義曖昧性解消項同定 isPredicate sense isArgument hasRole role 述語は既知とする格フレーム辞書は無い本研究の解析対象 • 本研究では従来研究の設定に倣い，項同定及び意味役割付与（格同定）のみを対象とする

Markov Logicによる日本語述語項構造解析 • 推定すべき情報を定義した述語 (潜在述語) • 素性を定義する述語の例 (観測述語) これらの述語を組み合わせることで素性を表現する

Markov Logic Networksの例 • 一階述語論理式による素性の定義方法 ground化 ※ 素性は全てニ値 dep(3,6,D) ne(6,PERSON) isPred(3) wc wa (PERSON) role (3,6, ヲ) isArg(6) wb

全体最適化のための大域論理式 • 一つの述語-項間にはただ一つの意味役割 • 格間での矛盾を軽減 • argが項ならば少なくとも一つの述語-項関係が成立する • 文内の述語，項候補を全て考慮して解析ガヲライオンがシマウマを食べた 1) ヲガガライオンに追いかけられたシマウマが崖から落ちた 2)

全体最適化のための大域論理式 • その他，全部で７つの大域論理式を利用する • この大域論理式を利用するモデルがGlobalモデル，利用しないモデルがLocalモデル

実験設定 • Meza-RuizらのMarkov Logicによる英語意味役割付与を基本に，日本語述語項構造解析を行う • 項同定と述語項同定の同時推定 • 文内述語項の集合的解析 • 実験データ：NAIST テキストコーパス 1.4β • 前処理 : POSと文節係り受けは京都コーパスのアノテーションを利用, CaboChaによる固有表現の自動付与 • 外部シソーラス : 日本語語彙大系 • 学習・推論： Markov thebeast • 学習素性： [平ら, 2008]の素性 + 大域論理式 • 実験項目 • 大域論理式の有無　（Localモデル vs Globalモデル） • State-of-the-artとの比較 [平ら, 2008],[今村ら, 2009]

実験結果①　Local vs Global • 大域論理式の効果 • どの潜在述語もGlobalモデルの方がよくなった • 述語項同定(role)において，大域論理式の付加によって改善するのはRecall

実験結果②　他の手法との比較 • State-of-the-artとの比較　（F値） • 提案手法はガ格において高い性能を示した • ヲ格とニ格については他の二手法よりも低い • 格同時推定モデルでは，数が多いガ格を積極的に同定する．結果的に数の少ない格はRecallが下がる

ここまでのまとめ • 大域的論理式の利用により，文内の述語項構造解析で性能の改善を実現した • ガ格については先行研究を上回る • 格ごとのデータ数 [平ら, 2008]より • ヲ格・二格に関しては大規模データの利用が有効

文間述語-項の問題 • ガ格では全体の約15%が文間ゼロ照応 • しかし，3割に届かず，文内の解析精度とは大きな開きがある • 先行研究における文間述語項の解析結果（F値）

文間の述語項構造 • 文内の述語-項だけであれば，これで簡潔 • しかし，"会った"と"誘った"のガ格がないガニ太郎は昨日図書館に行った． S1 ニニそこで偶然花子に会ったので，お昼に誘った． S2 ヲ

文間の述語項構造 • 文外の項候補をこれまでと同じ集合的アプローチで捉えるには，文書中のトークンを全て考慮せねばならず，計算量の点で難しい • そこで，ゼロ照応解析により，文外項を別にして扱うガニ太郎は昨日図書館に行った． S1 ガガニニそこで偶然花子に会ったので，お昼に誘った． S2 ヲ

ゼロ照応関係を介した述語項同定 ガニ太郎は昨日図書館に行った．照応関係ガガニニそこで偶然花子に会ったので，お昼に誘った． Φガヲ • 先行詞同定モデル太郎 • 明示的な照応詞がないため，述語-項の選択制限を利用する太郎昨日図書館花子 Φガ会った

照応解析を利用した述語項構造解析 • 探索先行分類モデル[飯田ら, 2005]の応用 • 全ての述語に対して，先行詞同定を行い，文外項の最尤先行詞候補を得る • 文外と文内項の候補から最適な項を選ばせる（MLNモデルに照応性判定を行わせる）文外項候補文内項候補集合 NP2 NPX NP1 NP3 NP4 NP5 null 文外先行詞同定モデル全体最適化モデルガヲニ NPX NP4 null 文間述語項解析モデル

ところが．．． • 殆ど文間の述語-項を同定できなかった（ガ格で5%以下） • 考えられる原因 • 先行詞同定モデルの精度が低過ぎる（６割弱） • 文内の述語項の方が圧倒的に数が多く，素性も豊富なため，文内の項ばかりが優先されてしまう

今後の展開 • ゼロ照応解析の性能改善 • 文間述語項解析モデルの見直し • 述語項構造解析と照応解析の同時（Joint）アプローチを検討

述語項構造解析と照応解析のJointアプローチ • 文内の集合アプローチを文書全体へ拡張 • 先行詞候補の削減 [飯田ら, 2008] 述語ー項関係項1 述語1 ? 照応関係項2 述語2 照応関係 ? 項3 述語3 ・・・・・・

Markov Logic による日本語述語項構造解析