200 likes | 444 Views
照応と共参照. 現実世界 ( 仮想世界 ). < 村山富市 >. identity-of-reference anaphora (IRA). < 太郎の iPod>. < 次郎の iPod>. identity-of-sense anaphora (ISA). 照応関係 : ある表現が同一文章内の他の表現を指す関係 共参照関係 : 二つの表現が現実世界(もしくは仮想世界)で同一実体を指す関係. 村山首相 は … 彼 は …. 太郎は iPod を買った。 次郎も それ を買った。. ACE EDT Task (Cont’d). 現実(仮想)世界.
E N D
照応と共参照 現実世界(仮想世界) <村山富市> identity-of-reference anaphora (IRA) <太郎のiPod> <次郎のiPod> identity-of-sense anaphora (ISA) • 照応関係: ある表現が同一文章内の他の表現を指す関係 • 共参照関係: 二つの表現が現実世界(もしくは仮想世界)で同一実体を指す関係 村山首相は…彼は… 太郎はiPodを買った。次郎もそれを買った。
ACE EDT Task (Cont’d) 現実(仮想)世界 mention_aclass: namestype: Persons 共参照 entity_iclass:specific_reference mention_bclass: pronouns type: Persons • mentionとentityの区別 文章 ジョンはリンゴを食べた。 彼はオレンジも食べた。 • Geo-political entity (GPE) • 場所としての「日本」と組織としての「日本」
共参照関係タグ付与コーパス(日本語) • Global Document Annotation コーパス • 総称名詞間にタグが付与されている • 京都コーパス • ある実体とその役割の間に共参照相当のタグが付与 フロン対策急げ…フロンによる環境対策は… フロン=フロン 村山首相 は … 村山=首相
NAISTテキストコーパスでの共参照関係 図書館a=図書館b本c⊃本d 図書館aには本cが置いてある。 図書館bの本dは借りることができる。 • 問題となる点 • 総称名詞なども共参照関係として認めるのか? 総称名詞は照応詞,先行詞とみなさない • タグ付与対象となる名詞句のクラスに制限を加える? 名詞句のクラスに制約を加えずに共参照関係を認定 • ACEのように名詞句のクラスを固有名などに制限するのはある種の情報抽出に特化 • さまざまな応用処理を対象にする場合,そのような制限は望ましくない
述語と項の関係の先行研究 文内のみのタグ付与 ラベルの意味が不明瞭 • PropBank: CoNLL shared task (04, 05) • 述語を含む文を対象に意味役割タグを付与 • ARG0, ARG1, …, ARG5, AA, AM, AM-ADV, etc (35種類)
述語と項の関係の先行研究 • 京都コーパス4.0 (555記事) • ガ/ヲ/ニ/カラ/ヘ/ト/ヨリ/マデなど表層レベルのタグ付与 • 日本語の場合はゼロ照応ため文を越えて付与する • ニツイテなども表層格とする • Global Document Annotation コーパス (橋田, 05) • ゼロ照応の場合でも同一文内に先行詞が出現している場合にはタグが付与されていない 学習手法の訓練事例として利用するには網羅性の点で問題となる トムiは今日学校へ行った。 帰っガ:トムi, ニ:外界照応 てすぐに遊びに出かけた。
NAISTテキストコーパスでの述語と項の関係 私は彼にリンゴを食べさせる。 京都コーパス4.0 [述語=“食べさせる”, ガ=“私” ヲ=“リンゴ” ニ=“彼”] NAISTコーパス [述語=“食べる”, ガ=“彼” ヲ=“リンゴ” 追加格=“私”] • 深層格や表層格などどのレベルでタグを付与する? • 「誰が何を何に対してどうする」といった情報の抽出を目的におく 述語の原型に対してタグ付与する • 表層レベルからなんらかの情報を捨象することが応用分野に貢献するか否かが自明ではない 表層格,特に頻出するガ/ヲ/ニ格をまず対象に
事態性名詞の先行研究 • 事態性名詞 • ある種のイベントを表す名詞 • NomBank • Penn Treebank II の約5,000名詞 • PropBankと同じタグセット (ARG0, …, ARGM-LOCなど) • 京都コーパス4.0 12% growth in dividends next year[REL=growth, ARG1=in dividends, ARGM-TMP=next year] 新民主連合所属議員の離党問題について「政権に影響を及ぼすことにはならない。…[離党ガ影響(する)]
NAISTテキストコーパスでの事態性名詞 • 事態性名詞 • 事態性名詞そのものを認定する必要がある • 対象を限定:サ変名詞,和語動詞の名詞化 (例「動き」「走り」) (つまり「運動会」などは除く) • 複合語の扱い • 構成的に分解可能 複合語の構成素にタグ付与 • 「紛争仲裁」 「仲裁」にタグ付与する • 「フランス革命」 「革命」にはタグ付与しない 彼からの電話によると、私は彼の家に電話を忘れたらしい。
タグの一致率 • 作業者2人に30記事を対象に作業を行ってもらった結果 • 一人の作業結果を正解,もう一人の結果をシステムの出力として再現率,精度を求める
共参照のタグ付与の問題点 • 換喩のタグ付与 「ロシア」間で共参照関係を認定 グロズヌイからの報道によると三日、大統領官邸の北西一・五キロの鉄道駅付近でロシア軍部隊iとチェチェン側部隊が衝突したが、ロシア側iは中心部への進撃を阻まれて苦戦。 ... ロシア政府jは三日、戦況に関する声明を発表し、大統領官邸を含む首都中心部は依然としてロシア側が支配していると強調した。しかし現地からのテレビ映像では、官邸はじめ中心部は依然としてドゥダエフ政権部隊の兵士が警戒に当たっており、ロシア側jの発表と食い違いを見せている。
述語のタグ付与の問題点 • 機能語相当表現との曖昧性 • 本動詞的な解釈: 会社Aが会社Bを子会社とする • 機能語的な解釈: “ある一つの側面からの価値付け” • 土屋ら(06): 機能語相当表現(複合辞)を対象に作業者間の一致度を評価 ある程度揺れなく作業できている • 項を考慮しながら述語を認定する場合に困難になる 各表現ごとにどちらに解釈すべきかをあらかじめ 提示する 会社Aが会社Bを子会社として …
事態性名詞のタグ付与の問題点 • 複合語の分割をどこまでやるのか? • 仕様: 構成的に分割できる場合のみ複合語の中も タグ付与の対象とする • 「投資率」のような複合語をどの程度構成的に分解するかの解釈が作業者間で揺れた • 結果物はモノなのかコトなのか? • 「契約」「規制」「投資」などの表現 料金規制当局と公共事業者が、一種の社会契約を結んだという考えに立つもので、経営効率化促進のための社会契約インセンティブ規制とも言われる。
項のタグ付与の問題点 • 交替の現象ために起こる揺れ • (φガ)(φヲ)実現する • agentガ themeヲ 実現する • themeガ 実現する 他動詞的な解釈でタグを付与する • 動作主性(agentivity)をどこまで認めるか? • 動詞: 「しばる」の項「規制」 • 規制(agent)ガ themeヲ しばる • agentガ 規制(instrument)デ themeヲ しばる どちらの格パタンを優先するかを決める
項のタグ付与の問題点 (Cont’d) • 組織とその関係者の対立 • 「与野党ガ協力(する)」 or 「党首ガ協力(する)」 • 「北朝鮮ガ発表(する)」or 「同指導部ガ発表(する)」 詳細化されている名詞句にタグ付与する 他方は名詞間の関係としてタグ付与<与野党,所属,党首> <北朝鮮,所属,同指導部> …自民、さきがけ、新進各党の与野党の党首会談を呼び掛けて協力を求めるべきだ。 北朝鮮における新年の辞は、同指導部の施政方針発表に当たる重要行事である。
ガ/ヲ/ニ格以外のタグ付与結果 • 付与された個数 • 上述のような複数の述語が同一表現を項として持つ場合は,作業者1と作業者2でそれぞれ16回と31回 ほとんどが係り受けの関係にある 台北iでは、スタジアムも満員になりデ:i、失神者が出たデ:iほど。
タグの一致率 • 作業者2人に287記事を対象に作業を行ってもらった結果 • 一人の作業結果を正解,もう一人の結果をシステムの出力として再現率,精度を求める