10 likes | 111 Views
新聞3千記事4万文への 述語項構造と共参照関係のアノテーション. 基礎技術. 応用技術. 形態素解析や係り受け解析などの表層的な解析処理の発展. 機械翻訳や Web からの情報抽出など実用的な技術の必要性. ヲ格. 香港 ― 台北間の 航空路線 は国際線としてはトップクラスの 輸送 量を 誇る 。 香港 のキャセイ航空や 台湾 の中華航空にとっては最大の ドル箱路線だ 。 その大きな理由は 台湾 が 中国 との直行便 運航 を 認め ておらず、年間百数十万人もの 台湾人 が香港 経由 で 中国 に 渡る からだ。. ニ格. ● 述語 ■事態性名詞. 【 外界一般 】.
E N D
新聞3千記事4万文への 述語項構造と共参照関係のアノテーション 基礎技術 応用技術 形態素解析や係り受け解析などの表層的な解析処理の発展 機械翻訳やWebからの情報抽出など実用的な技術の必要性 ヲ格 香港―台北間の航空路線は国際線としてはトップクラスの輸送量を誇る。 香港のキャセイ航空や台湾の中華航空にとっては最大のドル箱路線だ。 その大きな理由は台湾が中国との直行便運航を認めておらず、年間百数十万人もの台湾人が香港経由で中国に渡るからだ。 ニ格 ●述語■事態性名詞 【外界一般】 ガ格 ガ格 ヲ格 共参照 ガ格 ガ格 ガ格 ガ格 共参照 ヲ格 ニ格 ガ格 ヲ格 ヲ格 共参照 eqタグ 奈良先端科学技術大学院大学飯田 龍 小町 守 乾健太郎 松本裕治 背景 基礎と応用をつなぐ要素技術(共参照・述語項構造解析)の需要が増加 英語/日本語を対象にした共参照・意味役割付与・格関係などのタグ付与の仕様についての議論 共参照・述語項構造解析のための日本語を対象とした大規模なタグ付きコーパスを作成 NAIST Text Corpus 1.4βhttp://cl.naist.jp/nldata/corpus/ アノテーションの例 共参照関係 述語(事態性名詞)と項の関係 この基準はIEの要求から天下り的に来ているので,さまざまな応用処理にコーパスから学習した結果を利用する立場からはこの基準を採用したくない eqタグ • PropBankは文内のみ,英語を対象にしているために統語的な位置から意味役割は自然と制約される • 京大コーパス, NAISTコーパスでは文を越えて項をタグ付与しているために必須/任意の判定や役割の認定に揺れが生じやすい,また役割をどのように定義すればよいかは自明ではない 共参照タグ付与のための3つの基準 • 照応詞は文節の主辞を対象とする • 談話内に出現した名詞句のみを先行詞とする • 総称名詞は照応詞,先行詞として考えない タグの個数と一致率 京大コーパス3.0全記事を対象にタグ付与 ※一方のアノテータのタグ付与結果を正解としたときの再現率と精度 今後の課題 • ガ/ヲ/ニ格以外の格(カラ/ヘ/ト/ヨリ/マデ/デ)の付与に関してどの粒度で付与するのか? • 任意格に関しては,時間や空間などの情報を表層格ではなく意味のレベルで付与? • 節と節の関係,部分全体関係のような名詞間の関係についても吟味