200 likes | 361 Views
照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍 徳永健伸 東京工業大学. NLP2012 (March 14 2012). はじめに. 談話の首尾一貫性 ( 意味的なつながりの良さ ) の推定は談話理解の研究で必須となる課題 応用先 複数文書要約の後処理 文章 の自動採点・推敲支援など. 研究の動機 : 談話レベルの推敲支援. 修正前. 修正後. 研究の動機 : 談話レベルの推敲支援. 修正前. 部分問題. 首尾一貫性の良さの評価 談話単位 (e.g. 文,節 ) の順序並び換え 照応・共参照関係の解析・生成
E N D
照応・共参照解析に基づく文章の首尾一貫性の指標(修正版)飯田龍 徳永健伸東京工業大学 NLP2012 (March 14 2012)
はじめに • 談話の首尾一貫性(意味的なつながりの良さ)の推定は談話理解の研究で必須となる課題 • 応用先 • 複数文書要約の後処理 • 文章の自動採点・推敲支援など
研究の動機: 談話レベルの推敲支援 修正前 修正後
研究の動機: 談話レベルの推敲支援 修正前 部分問題 • 首尾一貫性の良さの評価 • 談話単位(e.g. 文,節)の順序並び換え • 照応・共参照関係の解析・生成 • 接続関係の同定と必要に応じた接続表現の挿入・修正・削除 修正後
関連研究 • 談話単位(e.g. 節or文)の間の関係をどう考えるか • 修辞構造理論(Mannら 1988)に代表される談話関係に関する議論 定義された関係のセットの妥当性 / 文章の構造を木とグラフのどちらで考えるか? • 談話単位(e.g. 名詞句)の文章内の遷移から(局所的な)首尾一貫性の特徴を捉える • entity-gridモデル (Barzilayら 2008): 文法役割に関する遷移を利用した首尾一貫性モデルを提案
entity-gridモデル (Barzilayら 2008) • 首尾一貫性の高い文章でP(SS)やP(OSX)などそれぞれの遷移がどの程度起こるのか • 首尾一貫性の低い場合でも同様にP(..)を計算し,順序学習する entity-grid S: 主語 / O:目的語 / X:その他 / −:出現しない
関連研究: entity-gridモデルの拡張 • 日本語への適用 (横野ら 2010) • 文法役割の4クラス: subj/obj/other/- 主題を加えた5クラス: は/が/に,を/その他/- • Penn Discourse Treebank(PDTB)(Prasadら 2008)の利用 • 文法役割ではなくPDTBで定義された談話関係において談話要素がどのように出現するか • 例: S1:Comp.Arg1S3:Temp.Arg1S4:Exp.Arg2 (詳述) (順接) (逆接)
本研究のアイデア • 「首尾一貫性の高い文章を書く際は, 照応・共参照関係を適切に多用する傾向がある」という考えを採用
具体例 首尾一貫性: 高い 首尾一貫性: 低い 社会党は今年,(φガ)党の尊保をかけた「民主リベラル新党」構想の実現に取り組む. (φガ)21日に開く臨時党大会で新党結成方針を決定し,(φガ)他団体に働きかける. しかし,旧民主党は大半の議員が新進党に参加し,さきがけとの連携も流動的で連携相手は不確定だ. 社会党は今年,(φガ)党の尊保をかけた「民主リベラル新党」構想の実現に取り組む. しかし,旧民主党は大半の議員が新進党に参加し,さきがけとの連携も流動的で連携相手は不確定だ. 21日に開く臨時党大会で新党結成方針が決定され,(φガ)他団体に働きかける. • 社会党についての記述が局所的にまとめられている • その後に旧民主党についての話題が記述されている • 社会党旧民主党社会党と頻繁に主題が交替する • 顕現性を反映しないゼロ照応の利用
本研究のアイデア • 「首尾一貫性の高い文章を書く際は, 照応・共参照関係を適切に多用する傾向がある」という考えを採用 • 「適切さ」「多用する」の推定 照応・共参照解析の結果を利用
照応・共参照関係の適切さ/多用の推定 • 「適切さ」 • 首尾一貫性の高い文章にタグ付けされた照応・共参照関係をもとに構築された照応・共参照解析のモデルを利用 • 期待できること • このモデルを首尾一貫性の高い文章へ適用 適切に照応・共参照関係を同定できる • 首尾一貫性の低い文章へ適当 相対的に照応・共参照関係を同定できない • 「多用」 • 照応・共参照解析モデルの出力する照応・共参照関係の個数
提案する首尾一貫性スコア • 文章T,文章中に出現する照応詞候補j,照応詞候補の総数をNとする • 文章T に何個照応関係が出現するかを首尾一貫性の指標とする 首尾一貫性の高い文章と低い文章で同じスコアと なる場合が多くなることが容易に想像できる jが先行詞を持つ それ以外
提案する首尾一貫性スコア • 文章T,文章中に出現する照応詞候補j,照応詞候補の総数をNとする • 文章T に出現する照応詞候補jがどの程度の信頼度で前方文脈に先行詞を持つかという情報を参照 e.g.
名詞句共参照解析モデルの利用 • 名詞句共参照解析のモデルを導入し,その結果がどのように首尾一貫性のスコアに影響するかを調査 • 名詞句共参照のモデルはIida &Poesio (2011)の解析モデルを利用 • : 探索先行分類型モデル(飯田ら 2005) 照応性判定/ゼロ代名詞検出モデル 先行詞同定モデル
評価実験:首尾一貫性の良さの評価 • Barzilayら(2008)と同様の評価 • 首尾一貫性の高い文章と低い文章の対を入力とし,どの程度首尾一貫性の高い文章を選択できるか? • データ生成 • 首尾一貫性の高い文章: オリジナルの文章 • 首尾一貫性の低い文章:首尾一貫性の高い文章の文をランダムに並び変えたもの • 1文章につき20の文章を作成 • データ: NAISTテキストコーパス 1.4ß (飯田ら 2010)
比較するモデル • entity-gridモデル • 共参照解析を利用して同一実体を指す要素を同定 • 文法役割は横野らが利用した[は/が/に,を/その他/-]の5種類を採用 • 首尾一貫性スコア (提案手法) • 名詞句共参照解析を利用 or ゼロ照応解析を利用 • 上記2つの組合せ • entity-gridモデルの素性の1つにスコアを加える
首尾一貫性モデルの適用例:名詞句共参照解析首尾一貫性モデルの適用例:名詞句共参照解析
まとめ • 照応・共参照関係の自動解析の結果に基づく首尾一貫性モデルの提案 • 名詞句共参照の結果から首尾一貫性スコアを計算 • そのスコアをもとに首尾一貫性の良さを推定する手法を提案 • 日本語新聞記事コーパスを対象とした首尾一貫性の評価で78.2%の精度を得た
今後の課題 • 新聞記事は社説などの記事を含むため,想定する首尾一貫性に関連する記述(議論的な内容)でない場合がある 学生の作成した小論文(宇佐美2011)を対象とした評価を実施 • 首尾一貫性モデルの改善に向けて • 同一実体を指していない場合でも関連する談話要素が文章中に偏在しており,それらをどう考慮すべきかを検討すべき