1 / 21

日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 ). テキストアノテーション WS @ NII. 研究背景. ゼロ照応解析 : 述語の省略された項を検出し,その先行詞を同定するタスク 文単位の命題の specification の部分問題 出力結果の利用先 MT: 省略された項を省略されたまま翻訳するという見方もあるが,性・数を反映した翻訳には必要 RTE を使った真偽判定 : 基本的には文単位で問題を考えるため,命題内の要素は特定化されるべき.

justine-roy
Download Presentation

日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 日本語ゼロ照応関係に対する特徴分類とそのアノテーション飯田龍,笹野遼平(東工大)日本語ゼロ照応関係に対する特徴分類とそのアノテーション飯田龍,笹野遼平(東工大) テキストアノテーションWS @ NII

  2. 研究背景 • ゼロ照応解析: 述語の省略された項を検出し,その先行詞を同定するタスク • 文単位の命題のspecificationの部分問題 • 出力結果の利用先 • MT: 省略された項を省略されたまま翻訳するという見方もあるが,性・数を反映した翻訳には必要 • RTEを使った真偽判定: 基本的には文単位で問題を考えるため,命題内の要素は特定化されるべき 新進党の小沢一郎幹事長1は十五日午前、当地で開かれた「アジア・太平洋指導者円卓会議」で基調報告。 (φ1ガ)昨年の新進党結成の背景や目的などを説明した。

  3. 関連研究: コーパス構築 • ゼロ照応関係: 述語項構造のアノテーションのサブセット • 直接の係り関係にない述語と項 便宜的にゼロ照応関係とみなす • 関係の種類 • GDAタグ付きコーパス: 動作主,主題などの意味役割 • 京都テキストコーパス: 述語の出現形に表層格 • NAISTテキストコーパス: 述語の原形に表層格

  4. ゼロ照応関係アノテーションの特殊性 • 英語: 共参照関係 • MUC-6, 7: 同格も共参照関係に ACE: 限られた名詞句の種類のみアノテーション(e.g. 人名,組織名,武器名) • 日本語: ゼロ照応関係 • 述語との項の関係を網羅的に付ける過程で,必須項が係り受けにない場合は前方文脈から補完 • 場合によっては無理矢理先行詞が補完される 解析が困難な事例が多くアノテーションされる • 自動解析精度: 約40%

  5. なにが問題なのか? • ゼロ照応解析の問題デザインにおける制約条件 • 述語を単位として考えるので,項は網羅的に付けざるを得ない • 英語のように項に埋まる名詞句の種類を限定すべきか?  ゼロ照応関係の振舞いを調べるには不適切なデータができてしまう • そもそもゼロ照応の現象は多様な言語現象が混在しているので,それが混在している問題をすべて同じ枠組みで解くという問題設計自体がおかしいのでは? 直接的な解決策: ゼロ照応関係を分類してみる

  6. 研究目的 • ゼロ照応関係の特徴を意味のある単位で分類 • 各分類をアノテーションし,どの特徴がどのくらい出現し,またどのくらい問題を複雑にしているのか,などを調査する

  7. 目次 • はじめに • ゼロ照応関係の分類(暫定案) • 作業計画 • どのデータにどのように作業を進めるべきなのか? • まとめ

  8. ゼロ照応関係の特徴分類 • 暫定的に6種類を用意 • 談話要素の顕現性を考慮した遷移 • AのBの関係を理解 • 選択選好に基づく理解 • 埋め込み構造・引用内に先行詞(照応詞)が出現 • 大域的な主題として捕捉 • 常識的な知識に基づいた推論 • もちろん,これだけとは限らない • アノテーションの過程で再分類

  9. 1) 談話要素の顕現性を考慮した遷移 • 顕現性の強さ(は>が>に>を>その他)と局所性でゼロ照応関係を説明 • センタリング理論(Groszら1995)の拡張 • 「は」以外の主題マーカについても検討する必要あり • e.g. 「〜に関して」 新進党の小沢一郎幹事長1は十五日午前、当地で開かれた「アジア・太平洋指導者円卓会議」で基調報告。 (φ1ガ)昨年の新進党結成の背景や目的などを説明した。 (φ1ガ)新進党について、その性格を「生活者に重きを置き、都市に住む人の気持ちをしっかりつかんだ政党だ」と 解説。

  10. 2)AのBの関係を理解 • 「AのBは(が)」で出現している場合に,BではなくAを先行詞とする場合 • 「ロシア」が「民営化」の動作主 • cf. 以降の記述によっては「民営化政策」が先行詞となる記述も可能 • 単純には後述の選択選好の知識により解決される ロシア1の民営化政策はチュバイス氏の指導で九二年十月から始まった。(φ1ガ)民営化証券を使って株式を取得するという第一段階は九四年六月に終了し、現在は現金で株を購入できる第二段階に入っている。

  11. 3) 選択選好に基づく理解 • 「<組織>ガ結成される」という知識が必要 • 加えて「新進党」が組織である知識も必要となる 現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに――。新進党1の党首公選から目が離せなくなってきた。 今回の党首選挙は、(φ1ガ)昨年十二月十日に結成されて以来、初めての公選である。 都市対抗野球で全国制覇も体験した新日鉄広畑製鉄所OBで、姫路商工会議所産業情報室長の今井一清さんが、県西部の野球史をまとめた「播磨野球物語」1を執筆中。7月には(φ1ガ)出版される。 • 「<本>ガ出版される」という知識が必要 • 「播磨野球物語」が本であることも推定する必要がある

  12. 4) 埋め込み構造・引用内に先行詞(照応詞)が出現 • 引用は地の文とは異なる談話のレイヤーに存在 • 照応詞(ゼロ代名詞)が引用の中に出現 • センタリング理論派生のシーケンシャルに談話を捉える考え方が通用しない • 急に想定しない談話要素が言及され,かつ省略される 最も苦しい立場に立たされるのは、東京都1。監督官庁としての責任があり、(φ1ガ)不良債権処理を目的とした債権回収機関に、約二百億円の収益支援を しなければならない。 都議会は二月七日に開会予定だが、支援策を盛り込んだ議案に対し、与党の公明党や社会党が厳しく追及する構えだ。都議会公明の大木田守・政調会長は「(φ1ガ)この二組合だけに支援する必然性がない。支援にはきちんとした基準、ルールが必要だ」と批判して いる。

  13. 4) 埋め込み構造・引用内に先行詞(照応詞)が出現 (Cont’d) • 引用は地の文とは異なる談話のレイヤーに存在 • 先行詞が引用の中に出現する場合も同様 • 典型的には引用が問題となるが,連体修飾節の中に出現している場合も同じ傾向にある 中国側によれば、最近訪中したターノフ米国務次官は「最近の出来事によって米国1は台湾問題の重要性と敏感さへの理解を深めた。台湾問題についての中国の立場を重視し尊重する」と表明した、とされる。 (φ1ガ)中国が要求しているように「李総統の私的訪米を二度と認めない」と公式には明言できないが、今後は慎重に対応するという意思表示だ。

  14. 5) 大域的な主題として捕捉 「まだ大学生のようにフレッシュ」と言われる童顔と、他人に警戒心を抱かせないような柔らかな語り 口が、この若々しい男の最大の武器だ。 ラルフ・リード氏1。 (φ1ガ)共和党保守派最強の集票マシンといわれる「クリスチャン・コアリション」のリーダーとして、昨年の中間選挙を踏み台に反リベラル運動の最前線に躍り出てきた。 タイム誌の年末特集では、(φ1ガ)将来の米国の指導者五十人の一人に選ばれている。 キリスト教の国である米でも、宗教活動に熱心な人々2はこれまで政治の世界では異端視されることが多かった。(φ2ガ)(φ2ガ)神学的価値観を持ち込むのでは、 と警戒されたためだ。 しかし、(φ1ガ)「日曜日に欠かさず教会に行き、毎日聖書を読んで暮らしている人間が、なぜ二級市民 に甘んじなければならないのか」と声を上げる。

  15. 6) 常識的な知識に基づいた推論 • 常識的な知識といってもさまざま • causal knowledge から 世界に関するものまで • e.g. 1997年に香港がイギリスから中国に返還 • どういう知識をどのくらい持っていなければ解けないのか? • いつそれを適用すればよいのか?  知識獲得だけでなく獲得したその知識の運用も問題 香港1の輸出入の拠点、ビクトリア港を隔てた九龍半島と香港島の両側でいま、埋め立て工事が急ピッ チで進められている。 (φ1ガ)中国に返還される一九九七年に開港予定の新空港関連の鉄道や道路、商業用地を確保する工事で、これらを含めたプロジェクトの総額は二兆円にのぼる。

  16. 6) 常識的な知識に基づいた推論 • 相撲など,想定される動きに関する知識が共有されている状況を考える • <受ける>  <突っ込む>:この文脈では動作主は同じ人にはならない • 他にもたぶんいろんな問題を扱う必要あり • 収集して再分類する必要がある いつもは動きすぎて墓穴を掘ることの多い琴錦1が、 この日は一気の出足だけを心に決めてかかっていた。 逆に迷ったのは若乃花2の方だった。... 「(φ2ガ)考え過ぎてしまった。(φ2ガ)相手の足首のことは忘れよう、忘れようと思ったんだけどね」。 それが中途半端な立ち合いにつながった。 いつも相手の機先を制する若乃花2なのに、(φ2ガ)フワッと立って、(φ2ガ)胸で受けてしまった。 そこへ(φ1ガ)最高の出足で突っ込み、(φ1ガ)左右を差す。 あとは(φ1ガ)右からおっつけるような形で一直線に前へ。

  17. 特徴間の依存関係 1. 談話要素の顕現性 2. AのBの関係 5. 大域的な主題として捕捉 6. 常識的な知識に基づいた推論 • 3. 選択選好 • 4. 埋め込み構造

  18. 作業計画 • 対象:現代日本語書き言葉均衡コーパス(BCCWJ) • 書籍・新聞・白書・blogなど,さまざまな種類の記事が含まれる 多様なゼロ照応関係のデータを収集 • BCCWJコアデータの述語項構造のアノテーションは奈良先端大 松本研で作業が進められている ゼロ照応関係がアノテーションされた状態で 作業が開始できる • 2段階の作業 • 小規模のデータに関係を網羅的に付けてもらう  6種類のいずれにも該当しない場合について再分類 • 大規模なデータ(コアデータ全体)に対し,新たな分類でアノテーション

  19. アノテーションツール: Slate (Kaplan et al. 2012) • セグメンテーションとセグメント間の関係付けが比較的容易にアノテーション可能 無向の線分:共参照関係 有向の線分:述語と項の関係 すでにこれらがアノテーションされた状況でゼロ照応関係の特徴分類を行う 1. 主題の遷移

  20. アノテーションされた結果の利用例 • さまざまな分析 • どの特徴がどのくらい出現するのか? • どのくらいそれぞれが簡単に解けそうか? • 問題の切り出しが比較的容易なら,それだけ独立に解く? • (特に常識的な知識を必要とする問題について)解析のためにどのようなリソースと処理を想定すべきか? • 応用先と各特徴の関連性の調査 • どのような関係が解ければ応用処理の精度が向上するのか?

  21. まとめ • ゼロ照応関係を特徴分類: 6種類 • 談話の顕現性に基づく主題の遷移から,常識的な知識に基づく推論まで • 特徴のアノテーションの計画 • 述語項構造がアノテーションされたBCCWJコアデータにアノテーションすることで作業を効率的に行う • 特徴の網羅性が問題になるため,さらに必要な特徴を考慮する

More Related