240 likes | 370 Views
NLP2010 11 th March, 2010. 述語対の項共有情報を利用 した 文間 ゼロ照応解析. 飯田 龍 徳永 健伸 東京工業大学 大学院情報理工学研究科 { ryu-i,take }@ cl.cs.titech.ac.jp. 研究 背景. ゼロ照応解析 文章中の省略されている格 要素 ( ゼロ代名詞 ) を 検 出してその指し先 ( 先行詞 ) を 補完するタスク 情報抽出のような応用処理で必須となる要素技術 言語理解の 実現度を見積る良い 試金石. 先行詞.
E N D
NLP2010 11th March, 2010 述語対の項共有情報を利用した文間ゼロ照応解析 飯田 龍 徳永 健伸東京工業大学 大学院情報理工学研究科 {ryu-i,take}@cl.cs.titech.ac.jp
研究背景 • ゼロ照応解析 • 文章中の省略されている格要素(ゼロ代名詞)を検出してその指し先(先行詞)を補完するタスク • 情報抽出のような応用処理で必須となる要素技術 • 言語理解の実現度を見積る良い試金石 先行詞 政府1は低所得者を(φ1ガ)支援する計画を(φexoニ)発表した。 関係省庁2の協力を(φ1ガ)(φ2ニ)要請する。 ゼロ代名詞
文内・文間のゼロ照応 • ゼロ照応解析の問題を文内と文間の2つに分割 • 文内ゼロ照応 • 文間ゼロ照応 • 文間の場合は統語的な手がかりが利用できず解析が困難になる 統語的なパタンlocal topicの遷移 太郎は遅刻して(φガ)授業に遅れた。 そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。 私は近づくのを躊躇った。しかし、私が近くに行くと、とてもうれしそうに話を(φガ)してくれ、笑顔を見せてくれた。 談話の挿入global topicの遷移
本研究で新たに導入する手がかり • 「Xガ 壊す Xガ 修理する」のような述語対の項の共有情報の利用を考える 顕現性:高 太郎が次郎を尋ねたとき、彼はラジオを修理していた。 先週(φガ)落として(φガ)壊したらしい。 次郎 太郎は次郎がラジオを修理しているときに彼の家を訪ずれた。 先週(φガ)落として(φガ)壊したらしい。 太郎
関連研究 • 含意関係認識などで利用する事態間関係の知識獲得 (Pekarら 2006, Abeら 2008, Szpektorら 2008, etc.) • 教師無しであるパタンで出現している述語対を収集 • 相互情報量などの共起尺度で重み付け • 共起事例を収集するための手がかり • 述語の局所文脈の類似性(Linら 2001, Szpektorら 2008) • アンカー(疑似共参照関係) (Pekarら 2006) • 並列表現 (鳥澤 2003)
アンカーを用いた知識獲得手法 (Pekarら 2006) • 文章中に出現する同一名詞句(アンカー)を近似的に共参照関係とみなして,述語対を収集 • 共起事例収集の例 • 頻度をもとにMIなどの共起尺度でランク付け {buy(subj:X), belong(obj:X)}, {buy(obj:X), belong(subj:X)} Mary bought a house.The house belongs to Mary.
アンカーを用いた知識獲得手法の問題点 • 同一名詞句が共参照関係にあるとは限らない 共起にノイズが混入 • ゼロ照応が頻出する 大規模に獲得できない可能性がある • どのようなパタンで出現した場合にも等価に扱ってよいのか? 人間は特徴的なパタンで出現している場合には1回しか出現していない場合でも知識獲得できる ゼロ照応関係から知識獲得 出現パタンの信頼度を導入
ゼロ照応関係を利用した項共有の知識獲得 • ゼロ照応関係に関する述語対がどの程度項を共有するかのスコアを見積る ※先行詞が明示的に記述されていない場合も ※ガ格-ガ格の組み合わせのみ 項共有スコア アジア一の国際リゾートを目指し観光ビジネスに取り組む 項共有モデル 3.24 地域課題解決を目指して各市町村が問題解決に取り組んでいる 1.83 彼はマスコミを嫌っているのでインタビューを拒否した 2.19 -1.05 彼が書類の作成を嫌ったため会社Aは彼のイベントへの参加を拒否した 目指す-取り組む: 3.51 述語対タイプの スコア算出 嫌う-拒否する: 0.79
1. 項共有モデルの構築 • 機械学習に基づく項共有関係の2値分類 • 述語項構造のタグが付与されたコーパスを利用 • 分類対象 • 述語対が係り受け関係にある場合に限定 • 「ため」「ので」「が」のような接続表現が項共有を同定するための手がかりとなる (南, 1974) • 訓練事例 • 正例: 係り受け関係にある述語対が同一の項を取る場合 • 負例: それ以外 {ガ:飲む,ガ:読む} 彼女はお茶を飲みながら本を読んでいる
1. 項共有モデルの構築: 素性 彼女は / お茶を / 飲みながら /本を / 読んでいる • 語彙的素性 • vi(vj)の述語(基本形)(例: 飲む) • 統語的素性 • vi(vj)を含む文節に出現する機能語 (例: ながら) • vi(vj)の間の文節に出現する機能語 (例: を) • vi(vj)の係り元の文節に出現する機能語 (例: は) • 項共有の素性 • viとvjが大規模コーパス中でどのくらい項を共有しているか • <名詞:格助詞>と<動詞>の共起をpLSIで次元圧縮して得られるP(z|v{i,j})のJS divergence vi vj
ゼロ照応関係を利用した項共有の知識獲得 • ゼロ照応関係に関する述語対がどの程度項を共有するかのスコアを見積る ※先行詞が明示的に記述されていない場合も ※ガ格-ガ格の組み合わせのみ 項共有スコア アジア一の国際リゾートを目指し観光ビジネスに取り組む 項共有モデル 3.24 地域課題解決を目指して各市町村が問題解決に取り組んでいる 1.83 彼はマスコミを嫌っているのでインタビューを拒否した 2.19 -1.05 彼が書類の作成を嫌ったため会社Aは彼のイベントへの参加を拒否した 目指す-取り組む: 3.51 述語対タイプの スコア算出 嫌う-拒否する: 0.79
2. 述語対タイプの項共有スコアの計算 • 述語対のインスタンス( )について求めたスコア 述語対のタイプ( )についてのスコアへ 述語対タイプの頻度 インスタンスのスコア
評価実験 • 文間ゼロ照応解析の先行詞同定 • 項共有のスコアのみで先行詞の順位を評価 • 項共有のスコアを機械学習に基づくモデルの素性に加えて評価
先行詞候補の順序付け: 実験設定 1/2 • 項共有モデルの学習事例(NAISTテキストコーパス(飯田ら, 07)中の係り受け関係にある述語対, ガ格-ガ格の組み合わせ) • 正例: 8,543事例 • 負例: 29,244事例 • 述語対インスタンス • 毎日新聞12年分から抽出 • 茶筌・CaboChaで形態素・係り受け解析 • 項共有学習・分類 • Support Vector Machine (Vapnik, 98) • 線形カーネル + デフォルトパラメタ
先行詞候補の順序付け: 実験設定 2/2 • 評価用データ • NAISTテキストコーパスの1部 287記事(2,399文)の文間ゼロ照応394事例 • 評価指標
MRRを用いた評価結果 NA: スコアを計算できない事例数 • 収集できた述語対の数 • アンカーに基づく手法: 1,651,118対 • 提案手法: 9,146,543対 約5.5倍
提案手法の学習曲線 • 訓練事例の規模を変化させた際のMRRの変化を調査 さらに規模を増やすことで精度が向上する見込みあり
評価データ中の述語対を各手法でスコア付けした結果(上位10事例)評価データ中の述語対を各手法でスコア付けした結果(上位10事例)
先行詞同定における評価 • 文間先行詞同定 • ゼロ代名詞が出現する文と異なる文に出現する先行詞のみを対象に • 先行詞同定モデル • トーナメントモデル(飯田ら, 2003) • 先行詞候補間で比較を行い,最終的に最も先行詞らしい候補を決定する • 項共有のスコアを加えた場合の精度の変化を調査
素性 • ゼロ代名詞を項として持つ述語の情報 • 語彙・統語情報 • 先行詞候補の情報 • 語彙・統語・意味情報,出現位置 • ゼロ代名詞が出現した状況での先行詞候補の顕現性の情報 • 述語と先行詞候補の対から抽出可能な素性 • 選択選好,述語と先行詞候補の距離など
先行詞同定の結果 • 項共有のスコアを導入することでベースラインより精度向上
先行詞同定の結果 • アンカーを手がかりとするより,項共有のモデルを導入することが精度向上に貢献した
先行詞同定の結果 • それぞれのスコアを素性として導入することが相補的に役立った
まとめと今後の課題 • 述語対の項共有モデルを利用したゼロ照応解析手法 • ゼロ照応解析タグ付きコーパスを用いて項共有モデルを構築 • そのモデルの出力するスコアを素性として利用することにより,先行詞同定で4%の精度向上 • 今後の課題 • 「体調ヲ崩す 病気ニなる」のような句と句の粒度で事態間の関係を捉える