250 likes | 446 Views
Markov Logic による 日本語述語項構造解析. 奈良先端科学技術大学院大学 吉川 克正 , 浅原 正幸 , 松本 裕治 2010.11.18. 日本語述語項構造解析の概要. 格の解析による局所的な意味情報の付与 「誰が,何を,何に対して,どうした」. ガ. ヲ. ライオンがシマウマを食べた. 1). ガ. ガ. ヲ. ライオンに追いかけられたシマウマが崖から落ちた. 2). 本研究の解析対象はガ格,ヲ格,ニ格の3種類. 提案手法の特徴. 3つの格を一つのモデルで推定 格間での矛盾を排除する 文内の述語,項候補を全て考慮して解析
E N D
Markov Logicによる日本語述語項構造解析 奈良先端科学技術大学院大学 吉川 克正, 浅原 正幸, 松本 裕治 2010.11.18.
日本語述語項構造解析の概要 • 格の解析による局所的な意味情報の付与 • 「誰が,何を,何に対して,どうした」 ガ ヲ ライオンがシマウマを食べた 1) ガ ガ ヲ ライオンに追いかけられたシマウマが崖から落ちた 2) • 本研究の解析対象はガ格,ヲ格,ニ格の3種類
提案手法の特徴 • 3つの格を一つのモデルで推定 • 格間での矛盾を排除する • 文内の述語,項候補を全て考慮して解析 • 文内で最も矛盾の少ない状態を探索する 文内の全体最適化手法により,論理的矛盾を軽減する ガ ヲ ライオンがシマウマを食べた 1) ライオンに追いかけられたシマウマが崖から落ちた 2)
提案手法の特徴 • 3つの格を一つのモデルで推定 • 格間での矛盾を排除する • 文内の述語,項候補を全て考慮して解析 • 文内で最も矛盾の少ない状態を探索する 文内の全体最適化手法により,論理的矛盾を軽減する ガ ヲ ライオンがシマウマを食べた 1) ヲ ガ ライオンに追いかけられたシマウマが崖から落ちた 2)
提案手法の特徴 • 3つの格を一つのモデルで推定 • 格間での矛盾を排除する • 文内の述語,項候補を全て考慮して解析 • 文内で最も矛盾の少ない状態を探索する 文内の全体最適化手法により,論理的矛盾を軽減する ガ ヲ ライオンがシマウマを食べた 1) ヲ ガ ガ ライオンに追いかけられたシマウマが崖から落ちた 2)
関連研究と本研究の違い① • 3つの格を一つのモデルで同時推定する集合的アプローチ • 従来手法[平ら,2008][今村ら,2009]では格ごとに個別のモデルを構築 • 従来手法(格個別モデル) • 本研究の手法(格同時推定モデル) 項候補集合 文内項候補集合 NP2 NP2 NP1 NP3 NP4 NP5 null NP1 NP3 NP4 NP5 null 全体最適化モデル ガ格モデル ヲ格モデル ニ格モデル ガ ヲ ニ NP2 NP1 null NP2 NP4 null 格ごとに個別のモデルを構築 3種類の格を同時に考慮して推定
関連研究と本研究の違い② • 文間述語-項関係は扱わない • 従来手法では文内,文間の同定を試みている • 集合的アプローチが文書全体では計算量の点で困難なため • 大規模データを利用しない • [今村ら,2009]では新聞12年分を利用して言語モデルを構築している • Markov Logicでは実数値素性の扱いが難しい
統計的関係学習の枠組み Markov Networkのテンプレート言語 Log-Linear Modelを構築する Markov Logic Network は(φ, w)の集合M φ : は一階述語論理の式 w : は実数値の重み ハードな制約だけでなくソフトな制約を定義できる (重み大 強い制約) Markov Logic[Richardson and Domingos, 2006] 展開された論理式の真偽(ニ値の素性) 述語(可能世界) 論理式 重み 定数 正規化項
Markov Logicによる意味役割付与[Meza-Ruiz et al., 2009] • CoNLL 2009 Shared Task を基にした英語の意味役割付与(SRL) • 述語同定,述語語義曖昧性解消,項同定,意味役割付与を同時に行う 意味役割付与(格同定) 述語同定 語義曖昧性解消 項同定 isPredicate sense isArgument hasRole role 述語は既知とする 格フレーム辞書は無い 本研究の解析対象 • 本研究では従来研究の設定に倣い,項同定及び意味役割付与(格同定)のみを対象とする
Markov Logicによる日本語述語項構造解析 • 推定すべき情報を定義した述語 (潜在述語) • 素性を定義する述語の例 (観測述語) これらの述語を組み合わせることで素性を表現する
Markov Logic Networksの例 • 一階述語論理式による素性の定義方法 ground化 ※ 素性は全てニ値 dep(3,6,D) ne(6,PERSON) isPred(3) wc wa (PERSON) role (3,6, ヲ) isArg(6) wb
全体最適化のための大域論理式 • 一つの述語-項間にはただ一つの意味役割 • 格間での矛盾を軽減 • argが項ならば少なくとも一つの述語-項関係が成立する • 文内の述語,項候補を全て考慮して解析 ガ ヲ ライオンがシマウマを食べた 1) ヲ ガ ガ ライオンに追いかけられたシマウマが崖から落ちた 2)
全体最適化のための大域論理式 • その他,全部で7つの大域論理式を利用する • この大域論理式を利用するモデルがGlobalモデル,利用しないモデルがLocalモデル
実験設定 • Meza-RuizらのMarkov Logicによる英語意味役割付与を基本に,日本語述語項構造解析を行う • 項同定と述語項同定の同時推定 • 文内述語項の集合的解析 • 実験データ:NAIST テキストコーパス 1.4β • 前処理 : POSと文節係り受けは京都コーパスのアノテーションを利用, CaboChaによる固有表現の自動付与 • 外部シソーラス : 日本語語彙大系 • 学習・推論 : Markov thebeast • 学習素性 : [平ら, 2008]の素性 + 大域論理式 • 実験項目 • 大域論理式の有無 (Localモデル vs Globalモデル) • State-of-the-artとの比較 [平ら, 2008],[今村ら, 2009]
実験結果① Local vs Global • 大域論理式の効果 • どの潜在述語もGlobalモデルの方がよくなった • 述語項同定(role)において,大域論理式の付加によって改善するのはRecall
実験結果② 他の手法との比較 • State-of-the-artとの比較 (F値) • 提案手法はガ格において高い性能を示した • ヲ格とニ格については他の二手法よりも低い • 格同時推定モデルでは,数が多いガ格を積極的に同定する.結果的に数の少ない格はRecallが下がる
ここまでのまとめ • 大域的論理式の利用により,文内の述語項構造解析で性能の改善を実現した • ガ格については先行研究を上回る • 格ごとのデータ数 [平ら, 2008]より • ヲ格・二格に関しては大規模データの利用が有効
文間述語-項の問題 • ガ格では全体の約15%が文間ゼロ照応 • しかし,3割に届かず,文内の解析精度とは大きな開きがある • 先行研究における文間述語項の解析結果 (F値)
文間の述語項構造 • 文内の述語-項だけであれば,これで簡潔 • しかし,"会った"と"誘った"のガ格がない ガ ニ 太郎は昨日図書館に行った. S1 ニ ニ そこで偶然花子に会ったので,お昼に誘った. S2 ヲ
文間の述語項構造 • 文外の項候補をこれまでと同じ集合的アプローチで捉えるには,文書中のトークンを全て考慮せねばならず,計算量の点で難しい • そこで,ゼロ照応解析により,文外項を別にして扱う ガ ニ 太郎は昨日図書館に行った. S1 ガ ガ ニ ニ そこで偶然花子に会ったので,お昼に誘った. S2 ヲ
ゼロ照応関係を介した述語項同定 ガ ニ 太郎は昨日図書館に行った. 照応関係 ガ ガ ニ ニ そこで偶然花子に会ったので,お昼に誘った. Φガ ヲ • 先行詞同定モデル 太郎 • 明示的な照応詞がないため,述語-項の選択制限を利用する 太郎 昨日 図書館 花子 Φガ 会った
照応解析を利用した述語項構造解析 • 探索先行分類モデル[飯田ら, 2005]の応用 • 全ての述語に対して,先行詞同定を行い,文外項の最尤先行詞候補を得る • 文外と文内項の候補から最適な項を選ばせる(MLNモデルに照応性判定を行わせる) 文外項候補 文内項候補集合 NP2 NPX NP1 NP3 NP4 NP5 null 文外先行詞同定モデル 全体最適化モデル ガ ヲ ニ NPX NP4 null 文間述語項解析モデル
ところが... • 殆ど文間の述語-項を同定できなかった(ガ格で5%以下) • 考えられる原因 • 先行詞同定モデルの精度が低過ぎる(6割弱) • 文内の述語項の方が圧倒的に数が多く,素性も豊富なため,文内の項ばかりが優先されてしまう
今後の展開 • ゼロ照応解析の性能改善 • 文間述語項解析モデルの見直し • 述語項構造解析と照応解析の同時(Joint)アプローチを検討
述語項構造解析と照応解析のJointアプローチ • 文内の集合アプローチを文書全体へ拡張 • 先行詞候補の削減 [飯田ら, 2008] 述語ー項関係 項1 述語1 ? 照応関係 項2 述語2 照応関係 ? 項3 述語3 ・・・ ・・・