1 / 40

格交替を考慮した 日本語ゼロ代名詞の先行詞同定

<2003 合同研 >. 格交替を考慮した 日本語ゼロ代名詞の先行詞同定. NAIST 飯田 龍  2003 年 10 月 31 日. そこ にいた お年寄りたち は、 ただボーッとしているような 感じ の 人 がほとんどだった。 しかし、 私 が近くに行くと、とてもうれしそうに 話 を ( φ ガ) してくれ 、笑顔を見せてくれた。. 先行詞. ゼロ代名詞. 研究の目的. ゼロ代名詞の照応解析 文章中の省略されている要素( ゼロ代名詞 )を検出し, 指示対象( 先行詞 )を同定する処理 2 つの処理 ゼロ代名詞の検出  / 先行詞の同定. 照応解析の先行研究.

Download Presentation

格交替を考慮した 日本語ゼロ代名詞の先行詞同定

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. <2003合同研> 格交替を考慮した日本語ゼロ代名詞の先行詞同定 NAIST 飯田 龍  2003年10月31日

  2. そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。 しかし、私が近くに行くと、とてもうれしそうに話を(φガ)してくれ、笑顔を見せてくれた。 先行詞 ゼロ代名詞 研究の目的 • ゼロ代名詞の照応解析 • 文章中の省略されている要素(ゼロ代名詞)を検出し,指示対象(先行詞)を同定する処理 • 2つの処理 • ゼロ代名詞の検出 /先行詞の同定

  3. 照応解析の先行研究 • 2つのタイプの照応解析手法 • 規則ベースの手法(Mitkov 97, Baldwin 95, 中岩ら 96, 奥村ら 95, 村田ら, 97) • 言語学的な知見を人手で規則に取り入れる試み • センタリング理論(Grosz, 95; Walker et al., 94; Kameyama, 86)に基づく • 例外的な現象について規則を書き尽くすことができない • 照応タグ付きコーパスを用いた機械学習手法(Aone and Bennett 95, Soon et al. 01, Ng and Cardie 02, 関ら 02, Isozaki et al. 03) • 照応解析の問題を,与えられた照応詞に対して名詞句が先行詞となるかならないかの2値分類問題に分解 • 言語学的な知見を考慮していない

  4. 2つの解析手法の利点の統合(Iida et al. 03) • 解析手法の2つの改善 • 言語学的な知見を考慮した素性の追加(センタリング素性) • 先行詞候補間を比較するモデルの提案(トーナメントモデル) 規則ベースの手法 機械学習の手法 言語学的な知見を考慮

  5. 先行詞候補 ○ ○ ○ 負 負 負 ○ ○ ○ 勝 勝 勝 トーナメントモデル • 考慮したい点は「ドゥダエフ大統領」と「エリツィン・ロシア大統領」においてどちらが先行詞らしいか? ドゥダエフ大統領は、正月休戦を提案したが、 エリツィン・ロシア大統領はこれを黙殺し、 行動を(φガ)開始した。 先行詞

  6. 負 ○ 勝 先行詞候補間の比較 • 「ドゥダエフ大統領」「エリツィン・ロシア大統領」「(φガ)開始する」 ドゥダエフ大統領は、正月休戦を提案したが、エリツィン・ロシア大統領はこれを黙殺し、 行動を(φガ)開始した。 左側の候補 右側の候補 品詞:名詞-一般助詞:は意味クラス:人有性性:○選択制限:○距離:0 Diff_Subj(規則):○ 品詞:名詞-一般助詞:は意味クラス:人有性性:○選択制限:○距離:0 距離:0

  7. 品詞 • 指示詞の情報 • 助詞の情報 • 固有表現 • 意味クラス • 有生性 • 選択制限 • 照応詞と先行詞候補間の距離 • 照応されている回数 • 連体節の中かどうか • ゼロ代名詞と候補の間にある 接続助詞 素性 • 機械学習を用いた照応解析で一般に用いられる素性 • センタリング素性 • 2つの先行詞候補の関係を捉える素性 ゼロ/主題(は) > 焦点(が) > 間接目的(に) > 直接目的(を) > その他 • 先行詞らしさの選好 • 選好を捉えるためのヒューリスティックな規則 トーナメントモデルでのみ導入することができる • 2つの候補間での先行詞らしさの選好 • 2つの候補間での有生性の選好 • 2つの候補間の距離

  8. 学習事例 トーナメントモデル(学習) 素性 クラス right NP1 NP5 ANP • トーナメントにおいて,照応詞であるNP5は 他の4つの候補に勝たなければならない • 4つの学習事例を抽出 • 抽出された学習事例から分類器を作成 • 分類器は与えられた2つの先行詞候補に対して 右もしくは左(どちらが先行詞らしいか)を分類 right NP4 NP5 ANP ANP left NP5 NP7 ANP left NP5 NP8 与えられたペアのうち,右側が勝利する(もっとも先行詞らしい) 先行詞 NP1 NP2 NP3 NP4 NP5 NP6 NP7 NP8 ANP coreferent 照応関係 coreferent 照応詞(ゼロ代名詞) 文章の最初

  9. トーナメントモデル(テスト) • 最初の試合は,もっとも照応詞に近い2つ先行詞候補(NP7とNP8)で構成 • 次からの各試合は,前の試合の勝者(NP8)と新しい挑戦者(NP5)で構成される NP1 NP2 NP3 NP4 NP5 NP6 NP7 NP8 ANP coreferent coreferent 照応関係 照応詞 文章の最初

  10.   先行詞 NP5 トーナメントモデル(テスト) 3. 勝者(NP5)は次の新しい挑戦者(NP4)と試合が構成される 4. この処理を対戦相手がいなくなるま  で続ける 5. 最後の試合で勝ち残った先行詞候補  を照応詞として同定する • テスト NP1 NP2 NP3 NP4 NP5 NP6 NP7 NP8 ANP coreferent 照応関係 coreferent 照応詞 文章の最初

  11. ゼロ代名詞の先行詞同定の実験とその結果 • GDAタグ付きコーパスから表層ガ格について2781事例を抽出

  12. 誤り事例の分析 • 人手で先行詞同定を誤った事例を分析:50事例 • 数量,集合表現のため人手でふられた照応関係のタグに揺れが存在する 7事例 (14%) • 動詞の選択制限のモデルに不備がある 6事例 (12%) • 照応詞,もしくは先行詞が埋め込み構造の中にある 22事例 (44%) e.g.)直接引用 埋め込み構造を認識し,  この問題を解くための別の機構を加える …… 獄に下るモハンメドは妻iにこう言い残した。「おれが刑務所にいる間、外で(φiガ)働いてはいけない」。貞節を守れ、という意味だ。さすがに刑務所で新しい子供に恵まれる可能性はないと思ったのだろうか。

  13. 発表の流れ • 研究の背景 • 日本語ゼロ代名詞の先行詞同定の問題点 • 特に機械学習を用いた先行詞同定のモデルについて • 照応タグ付きコーパスの修正 • 実験 • 実験結果と考察 • 今後の課題

  14. 先行詞らしさの序列(主題性,salience) • 日本語では主題性が高いほど省略されやすい • 主題性の高さは以下の序列で与えられる(Kameyama 86, Walker et al.94, Nariyama 02) ゼロ/主題(は) > 焦点(が) > 間接目的(に) > 直接目的(を) > その他 エリツィン・ロシア大統領iはこれを黙殺し、 行動を(φiガ)開始した。 先行詞 表層格 表層格の情報が先行詞同定の際,有力な情報となる ■先行詞■先行詞の候補

  15. ゼロ代名詞先行詞の同定の問題点 • 格交替 • センタリング理論とゼロ照応タグ付きコーパスの不整合 • 直接引用 • 異なる談話構造に先行詞もしくは照応詞がある場合に解析が誤りやすい傾向にある

  16. 1.格交替を伴う際の学習の問題点 • 主題性とタグ情報の不一致(Seki et al. 02, Isozaki et al. 03) • 先行詞らしさの序列(表層格) • タグ情報(深層格に付与) • 格交替を伴う場合は誤った学習をする可能性がある ゼロ/主題(は) > 焦点(が) > 間接目的(に) > 直接目的(を) > その他 捕虜iが処刑されたり,戦闘に(φiガ)巻き込まれ死傷する可能性が高い. NiガVしたり,(φiガ)Vする (田村ら, 95) (Nariyama, 02) (深層格) (表層格) 巻き込むガ[外界]ヲ 捕虜ニ 戦闘 巻き込む(+れる)ガ 捕虜ニ 戦闘 ヲ格として学習

  17. 採用する ガ格 :<主体> ヲ格 :<人> 採用する ガ格 : ヲ格 :主婦たち 選択制限 選択制限 1.格交替を伴う際の学習の問題点 • 選択制限は深層格で引く • 表層格と深層格の両方の情報が必要となる 六○年代にニュータウン開発で土地を買収されたり、 区画整備の対象となった旧農家の主婦たちi。 「生活再建の場を提供する」という都の方針で 毎年九カ月契約で(φiガ)採用され、....

  18. ゼロ代名詞先行詞の同定の問題点 • 格交替 • センタリング理論とゼロ照応タグ付きコーパスの不整合 • 直接引用 • 異なる談話構造に先行詞もしくは照応詞がある場合に解析が誤りやすい傾向にある

  19. 2.直接引用が含まれる場合の問題点 • 直接引用内の照応詞もしくは先行詞 • 先行詞らしさの序列(表層格) • ゼロ代名詞が直接引用内にある場合 ゼロ/主題(は) > 焦点(が) > 間接目的(に) > 直接目的(を) > その他 …… 獄に下るモハンメドは妻にこう言い残した。「おれが刑務所にいる間、外で(φiガ)働いてはいけない」。貞節を守れ、という意味だ。さすがに刑務所で新しい子供に恵まれる可能性はないと思ったのだろうか。 先行詞「妻」が主題性が低い 先行詞

  20. 2.直接引用が含まれる場合の問題点 • 直接引用内の照応詞もしくは先行詞先行詞らしさの序列(表層格) • ゼロ代名詞が直接引用の外にある場合 ゼロ/主題(は) > 焦点(が) > 間接目的(に) > 直接目的(を) > その他 山崎容疑者iは調べに対し、「関根容疑者は繁殖場のドラム缶で三人の遺体を焼いたのを見た」と(φiガ)供述、さらに脅されて灰を捨てるのを手伝ったと具体的に供述した。 先行詞「山崎容疑者」が主題性が低い

  21. 発表の流れ • 研究の背景 • 日本語ゼロ代名詞の先行詞同定の問題点 • 照応タグ付きコーパスの修正 • 実験 • 実験結果と考察 • 今後の課題

  22. 照応タグ付きコーパスの修正 • 関ら(02)のゼロ照応タグ付きコーパスをもとに(京大コーパス60文章) • 深層格に対してガ格,ヲ格,二格のゼロ代名詞とその先行詞にタグ付与 • 格交替を考慮したタグを追加 • 直接引用とその話者のタグを追加 • 名詞句照応のタグを追加

  23. 彼ガ本ヲ読む 私ガ彼二本ヲ読まセル 格交替のタグ付与 • 表層格と深層格とのリンクを考慮したタグ付け方法を考える • 深層格のタグ付けを考えた際の問題点 • ある助動詞(‘せる’,など)では取り得る格が異なる 読むガ格 彼ヲ格 本 読む使役ガ格 私 ガ格 彼ヲ格 本 ※格フレームに存在しないため区別する必要がある

  24. 格交替のタグ付与 • 深層格と表層格の対応付け • ゼロ照応の解析 • 深層格(+助動詞)の格フレームに対して格要素を埋める処理 φガ彼二本ヲ読まセル 深層格 表層格 読む使役ガ格 φ ガ格 彼ヲ格 本 読むガ格 φ   二格 彼  ヲ格 本

  25. 対象とする助動詞 • 格の交替の起こる助動詞(補助動詞):6種類 • 受身(れる,られる) • 使役(せる,させる) • ほしい • もらう,いただく • くれる,下さる,くださる • やる,あげる

  26. タグ付けに追加した格要素(3種類) 深層格(+助動詞) • 使役ガ • 受益ニ • 希望ガ 食べる(+せる)ガ   彼 ヲ   リンゴ 使役ガ  私  私は彼にリンゴを食べさせる。 読む(+やる)ガ   私 ヲ   本 受益ニ  彼  私は彼に本を読んでやる。 食べる(+ほしい)ガ   彼 ヲ   リンゴ 希望ガ  私  私は彼にリンゴを食べてほしい。

  27. 直接引用のタグ付与 • 括弧(「」)の文に対して • 直接引用か強調の括弧か • 直接引用の場合,話者が文脈中に存在するか • 話者が文脈中に存在する場合,その話者にタグ付与 強調 米国の「原爆切手」など国民感情に触れる問題再発を防ぐためにも 直接引用 しかし、首相は「まったく理解できない」と強い不快感を表明した。

  28. タグ付け作業の進行具合 • ゼロ代名詞とその先行詞がタグ付けされた関ら(02)のテキスト(京大コーパス60テキスト)に対して • 新たに追加した格,深層格と表層格の対応のタグを追加名詞句照応のタグを追加 • 報道30テキスト(完了) • 社説30テキスト(作業中) • 直接引用とその話者についてタグを追加 • 報道30テキスト(完了) • 社説30テキスト(完了) このタグ付けから得た知見をもとに大規模な照応タグ付きコーパスを作成予定

  29. 発表の流れ • 研究の背景 • 日本語ゼロ代名詞の先行詞同定の問題点 • 格交替 • 直接引用 • 照応タグ付きコーパスの修正 • 実験 • 実験結果と考察 • 今後の課題

  30. 実験の内容 • ゼロ代名詞の先行詞同定の処理 • 格交替について • 格交替を考慮した先行詞同定 • 選択制限のモデルのみを用いて問題を解く • 直接引用について • 直接引用の情報を与えた上で先行詞を同定する

  31. 格交替を考慮した先行詞同定 • 深層格を直接解析 • 表層格で解析して格を交替し先行詞を決定 捕虜iが処刑されたり,戦闘に(φiガ)巻き込まれ死傷する可能性が高い. 深層格 巻き込むガ格 ヲ格 捕虜 深層格 表層格 巻き込むガ格 ヲ格捕虜 ニ格 巻き込む(+れる)ガ格 捕虜 ニ格

  32. 格交替を考慮した先行詞同定 • 実験の条件 • 対象とする格要素: ガ格,ヲ格,ニ格 • 受動態など助動詞の情報は与える • ゼロ代名詞の前方照応 (外界照応は扱わない) • 対象としたゼロ代名詞の正解を補完しながら後のゼロ代名詞の問題を解く • ガ格,二格,ヲ格の順序 • 10分割交差検定(ガ格,二格,ヲ格についてそれぞれ) • 対象テキスト数: 報道記事30文章

  33. 実験結果(ゼロ代名詞前方照応) • 格交替を考慮しない場合の解析 • 格交替を考慮した場合の解析

  34. 選択制限のモデルのみを用いた実験 N ¬N • 選択制限のモデルのみを用い先行詞同定を行う • 対数尤度比を用いた選択制限最も値の大きい候補を正解とした場合(対数尤度比が引けない場合は最も近い候補を正解に) • 格交替を考慮した場合の解析 V ¬V

  35. 実験の内容 • ゼロ代名詞の先行詞同定の処理 • 格交替について • 格交替を考慮した先行詞同定 • 選択制限のモデルのみを用いて問題を解く • 直接引用について • 直接引用の情報を与えた上で先行詞を同定する

  36. 文章中の直接引用の出現 • 直接引用が含まれることでどの程度先行詞同定に影響がでるかを調べる • 直接引用の数 • 報道記事30文章 • 直接引用 :83個 (19.9%) • 文数 :417文 • 直接引用内のみに先行詞が存在する場合を数える • ガ格 :0/345 • ヲ格 :0/43 • ニ格 :0/35 …「 NP…」… ……φ 先行詞は直接引用内にのみ出現 ゼロ代名詞は直接引用の外

  37. 直接引用を素性に加えた実験結果 • 直接引用を考慮したモデルの作成 • 引用かどうか,話者がどの候補であるかがわかった上でどの程度解析精度が向上するかを見る • 直接引用内には候補がないとしてモデルを考えることにする • 表層レベルの解析

  38. まとめ • 関らのゼロ照応タグ付きコーパスをもとに格交替と直接引用を考慮したコーパスを作成 • 格交替と直接引用を考慮したモデルを作成 • 格交替を伴う場合に,表層格で先行詞同定を行うことで深層格を直接解析するより解析精度が良いことを示した • 引用を考慮した先行詞同定については今回対象とした事例に引用を考慮すべき場合が少なかった

  39. 今後の課題 • 解析誤りの分析 • 選択制限のモデルの誤り • 統語的な手がかり語を考慮する • 連体修飾句 セルゲイ・コワリョフ氏iは九日夕、チェルノムイルジン首相jと電話で会談し、戦死者の遺体運び出しと重傷者の病院輸送のため二日間(φガ)休戦するよう(φiガ)(φjニ)要請した。 同府内の親せきが二日に訪問、[玄関に(男性が)倒れ(男性が)死亡している]のを見つけた。 調べでは、二人は昨年十二月十三日校内で、授業中に骨折し松葉づえで通学していた中三の男子生徒iに現金を(二人が)要求したが(二人が)断られたため、頭をコンクリート壁に(二人が)打ちつけたり顔を(二人が)殴るなど(二人が)した疑い。翌日は[(φiガ)骨折していた]足をけったりしたという。

  40. 今後の課題 • CaboCha(工藤 02)+NEに照応解析のモジュールをつけて公開予定

More Related