290 likes | 357 Views
機械学習による 日本語名詞句照応解析の一手法. 奈良先端科学技術大学院大学 ニューヨーク大学 飯田龍 乾健太郎 松本裕治 関根聡. 先行詞. 村山富市首相 は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。 首相 は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。. 照応詞. 名詞句照応解析. 文章内の同一指示対象を同定するタスク 照応解析の応用 対話モデル, MT, IR, IE, QA. 照応解析の先行研究. おおきく2つの手法に分類できる
E N D
機械学習による日本語名詞句照応解析の一手法機械学習による日本語名詞句照応解析の一手法 奈良先端科学技術大学院大学 ニューヨーク大学飯田龍 乾健太郎 松本裕治 関根聡
先行詞 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 照応詞 名詞句照応解析 • 文章内の同一指示対象を同定するタスク • 照応解析の応用 • 対話モデル, MT, IR, IE, QA
照応解析の先行研究 おおきく2つの手法に分類できる • 理論指向の規則作成に基づく手法(Baldwin 95, Mitkov 97, Vieiraら 00, 村田ら97) • 照応関係タグ付きコーパスを用いた学習手法(Soonら01, Ngら 02, Yangら03, Geら 98) • センタリング理論など言語学的な知見をもとに規則を作成 • Message Understanding Conference (MUC) • 精度 約70%, 再現率 約60% (対象言語は英語) • 規則の保守・洗練が難しい • 表層情報からわかる単純な手がかりを使用 • MUCの同タスクにおいて,規則ベースの手法と 同程度の精度を得ている
目的 • 一般に英語と比較して日本語の方が名詞の指示性を推定することが困難だと言われている • 冠詞(theなど)の情報が無いため • 機械学習を用いた日本語照応解析のモデルを提案 • このモデルを日本語の名詞句照応解析に適用し,どのような現象がどの程度解析可能かを調査する
目次 • 名詞句照応解析の概要 • 村田らの日本語名詞句照応解析手法 • 提案手法 • 評価実験 • 実験結果と誤り分析 • まとめ
村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 「村山富市首相」 = 「首相」「社会党」 = 「党」 緑色: 定名詞 村田ら(‘97)の規則に基づく解析手法 2つの処理で解析 • 名詞句の指示性(総称名詞,定名詞,不定名詞)の推定 • 局所文脈(助詞,係り元,係り先など)の情報を利用 • 定名詞句間の照応関係の同定 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。
指示性の推定を誤ることで照応関係の解析全体に影響を及ぼす恐れがある指示性の推定を誤ることで照応関係の解析全体に影響を及ぼす恐れがある 村田らの手法の問題点 • 名詞句「首相」の指示性を推定するには前方文脈の情報が必要 • 村田らの手法でも規則として用いられているが例外を書き尽くすことは困難である 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。
目次 • 名詞句照応解析の概要 • 村田らの日本語名詞句照応解析手法 • 提案手法 • 評価実験 • 実験結果と誤り分析 • まとめ
照応詞候補と最尤先行詞候補の両方の情報を参照して指示性を推定照応詞候補と最尤先行詞候補の両方の情報を参照して指示性を推定 提案手法 • 個別の名詞句が定名詞か否かを分類することなく照応関係を認定する手法 • 最尤先行詞候補の同定 • 照応詞候補に対して最も先行詞らしい候補(最尤先行詞候補)を同定する • 照応詞の認定 • 最尤先行詞候補と照応詞候補の対を用いて照応詞候補が照応詞かそれ以外(非照応詞)かを分類 名詞句照応解析の問題を2つに分割
村山富市首相 首相 最尤先行詞候補の同定 • トーナメントモデル (Iida 03) 最尤先行詞候補 村山富市首相 村山富市首相 超党派 八日 社会党 首相 照応詞候補 先行詞候補 超党派 最尤先行詞候補 超党派 社会党 村山富市首相 超党派 八日 社会党 照応詞候補 先行詞候補
村山富市首相 首相 超党派 社会党 提案手法 • 最尤先行詞候補の同定 • 照応詞候補に対して最も先行詞らしい候補(最尤先行詞候補)を同定する • 照応詞の認定 • 最尤先行詞候補と照応詞候補の対を用いて照応詞候補が照応詞かそれ以外(非照応詞)かを分類 照応詞候補 最尤先行詞候補 社会党 超党派 首相 村山富市首相 照応関係× 照応関係○
照応詞の認定 • 訓練事例の作成 負例集合 非照応詞と最尤先行詞候補の対を負例とする 正例集合 超党派 社会党 最尤先行詞候補 村山富市首相 首相 超党派 先行詞 照応詞 真の照応詞と先行詞の対を正例とする 村山富市首相 超党派 八日 社会党 非照応詞 先行詞候補
社会党 党 照応関係 最尤先行詞候補 社会党 照応詞の認定 (Cont’d) • 解析 … 照応詞候補 村山富市首相 … 社会党 今春 統一地方選 党 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。
目次 • 名詞句照応解析の概要 • 村田らの日本語名詞句照応解析手法 • 提案手法 • 評価実験 • 実験結果と誤り分析 • まとめ
図書館1 = 図書館2 図書館1には本1が置いてある。 図書館2の本2は借りることができる。 本1 ⊃本2 包含関係を考慮してタグ付与することは困難 外界の要素を指示 庭師はその植物に水をやりましたか。 • 指示詞の無い「村山富市首相」は外界照応? ○ [八重洲 東] ○ [駐車 場] × [[八重洲 東] 駐車] • [ [ 八重洲東] [ 駐車場 ] ] 名詞句照応解析の問題設定 • 照応関係タグ付きコーパスの作成の際の問題 • 総称名詞や不定名詞の照応関係 • 外界照応 • 複合名詞句の構成素
照応関係タグ付きコーパス作成の基準 • 総称名詞と不定名詞は照応詞,先行詞としない • 談話内に出現した名詞句のみを先行詞とする • 照応詞は文節の主辞(最右の名詞自立語)を対象とする タグ付与の基準
訓練・評価データ • 作成したタグ付けの基準に従い,京大コーパスの報道90記事にタグを付与 • 883事例を抽出 • 前処理 • 形態素解析(茶筌) • 構文解析・固有表現抽出(CaboCha) • 学習器 • SVM (Vapnik 98)
素性 4種類の素性 • 語彙的な情報を用いた素性 • 形態・統語的な情報を用いた素性 • 意味的な情報を用いた素性 • 名詞句間の距離情報を用いた素性
実験結果 • 先行詞同定 誤り 13.4% (100 - 86.6)照応詞認定 誤り 20.7% (86.6 - 65.9)
解析の信頼度 • 解析を誤るよりも精度良く解析したいという要求がある • 照応詞認定処理で分類器が出力する値を信頼度として導入(SVMが出力する分離平面からの距離) 全体の事例のうち約5割を出力すると約9割の精度が得られる
解析誤りの分析(先行詞同定) • 真の照応詞に対する先行詞同定を誤った118事例
解析誤りの分析(先行詞同定) • (1) 名詞意味属性の粒度 • 照応解析に必要な意味属性の粒度とは?「会議」 ≠ 「今日」: 意味属性の違いで棄却できる「兄」 ≠ 「妹」: 多くの言語資源において 同一の意味概念<人間>に含まれる • (3) 文字列素性が過剰に働く • 文字列の一致情報は固有表現同士の場合などは有用しかし • 「キリスト教会」と「キリスト教会色」の対が照応関係と解析される
解析誤りの分析(照応詞認定) • 解析の信頼度が高くかつ解析を誤った50事例の分析 • 名詞の指示性の推定方法について今後さらに検討する必要がある
まとめ • 最尤先行詞候補を同定した上で照応詞を認定する名詞句照応解析手法の提案 • 再現率 65.9%, 精度 78.4%
今後の課題 • 名詞の指示性に着目して • センタリング理論で導入されている局所文脈情報の利用 • (不)定名詞と総称名詞を区別するような知識について調査 • 規則ベースの手法との比較 • タグ付きコーパス作成方法の洗練
実験結果(照応詞で分類) • 「照応詞の検出と先行詞の同定」を照応詞によって分類 • 固有表現: CaboChaの出力するIREXの8種の固有表現 • 代名詞 : 茶筌の出力する品詞 • 普通名詞: それ以外
村田ら(‘97)の名詞句の指示性の分類 • 総称名詞 • 名詞句の意味する類に属する任意の成員のすべて,もしくは類それ自身 • 非総称名詞 • 不定名詞 • 名詞句が意味する類に属するある不特定の成員 • 定名詞 • 名詞句の意味する類に属する文脈上唯一の成員 犬は役に立つ動物です。 犬が三匹います。 その犬は役に立ちます。