340 likes | 448 Views
日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -. 飯田龍 ,徳永健伸 (2012 /5/11 ). 研究対象 : 参照表現の自動生成. 課題:照応関係にある照応詞を文脈に応じて適切な表現で生成する 応用 : 機械翻訳・自動要約の後処理,教育・推敲支援の部分問題.
E N D
日本語書き言葉を対象とした参照表現の自動省略-人間と機械処理の省略傾向の比較-日本語書き言葉を対象とした参照表現の自動省略-人間と機械処理の省略傾向の比較- 飯田龍,徳永健伸(2012/5/11)
研究対象: 参照表現の自動生成 • 課題:照応関係にある照応詞を文脈に応じて適切な表現で生成する • 応用: 機械翻訳・自動要約の後処理,教育・推敲支援の部分問題 大蔵省の篠沢恭助事務次官が二十九日、突如辞任した。これを発表した武村正義蔵相によれば、最近の大蔵省をめぐる問題について、(φガ)この際省全体のけじめをつける、というのが篠沢次官の辞任理由という。任期半年余りで「官僚の中の最高のポスト」といわれる大蔵事務次官が辞任すること自体、(φガ)異例といえよう。しかも武村蔵相の辞任発表記者会見に、辞任した本人である篠沢氏自身1が姿を見せなかった。これもおかしい。篠沢氏が(φガ)堂々と自らの口で辞任の理由を述べ、国民の理解を(φニ)求めるべきであった。
タスク • すべての参照表現の可能性を一度に考えるのは難しいので参照表現を「省略する」「省略しない」の2値分類を考える • 述語のガ格,ヲ格,ニ格のみを対象に解く
省略生成の具体例 高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を<知事ガ>撤廃する方針を明らかにした。 <高知県ノ>現在の一般事務職の採用は日本国籍が要件。 国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を<国ガ>禁じる規定はない。 <知事ガ>「地方行政の運営上、国籍条項の必要性は<知事ガ>感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として<知事ガ>排斥する理由はない。戦後五十年を契機に<知事ガ><方針ヲ>実現させたい」と話している。 高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を(φガ)撤廃する方針を明らかにした。 高知県の現在の一般事務職の採用は日本国籍が要件。 国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を(φガ)禁じる規定はない。 橋本知事は「地方行政の運営上、国籍条項の必要性は(φガ)感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として(φガ)排斥する理由はない。戦後五十年を契機に(φガ)(φヲ)実現させたい」と話している。 • あ
関連研究 • 英語の場合は代名詞化の問題に対応 • 規則ベースの手法(Dale 1990, Kibbleら 2000, Fujiwaraら 2001, Krahmerら 2002, Rohら2004) • センタリング理論(Groszら 1995)の談話要素の遷移の良さを利用 • 最もつながりが良いとされるContinue遷移の場合に省略 or 代名詞化 ; それ以外の場合は明示的に表記する • センタリングの適用範囲は隣接する談話単位間(文間)に限定され,最も顕現性の高い談話要素のみしか扱えない
関連研究 (Cont’d) • 吉見ら(2001): 機械翻訳システムが出力する不適切な代名詞や指示連体詞を「そのまま残す」「省略する」「置き換える」の3値分類 • 代名詞の表記や従属節の接続形などを素性とし,決定木学習で分類 • 機械翻訳システムの出力結果にアノテーションを行い,評価用データを作成 • 代名詞を省略すべきか否かの2値分類: 精度79.9% • 問題が機械翻訳システムの出力に依存
研究のねらい • 背景: 照応・共参照関係がアノテーションされたコーパスの整備 • 京都大学テキストコーパス(河原ら2002),NAISTテキストコーパス(飯田ら2010),etc. 翻訳結果などに依存せず,文章中の照応・共参 照の現象を網羅的に分析できる • 既存研究で利用されている言語的な手がかりを利用して省略生成の問題を解き,どの程度正しく分類できるのか,何が問題となるのかを明らかにする
評価用データ • NAISTテキストコーパス1.4β(修正版)(飯田ら, 2009) • タグ付与対象: ゼロ照応ガ/ヲ/ニ格+名詞句共参照 • ゼロ照応はガ/ヲ/ニ格にしか付与されていないのに対し,名詞句共参照は制限がない • そのまま使うと名詞句の場合のみさまざまな格で出現することを許すことになる • 名詞句側も解析対象を述語のガ/ヲ/ニ格に限定 • 他の格で出現している場合は解析の対象外とする • 格の交替はそのままでアノテーション • 述語の出現形にアノテーションされている • e.g. 「設計する」ではなく「設計される」のガ/ヲ/ニ格
が解析対象 高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を<知事ガ>撤廃する方針を明らかにした。 <高知県ノ>現在の一般事務職の採用は日本国籍が要件。 国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を<国ガ>禁じる規定はない。 <知事ガ>「地方行政の運営上、国籍条項の必要性は<知事ガ>感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として<知事ガ>排斥する理由はない。戦後五十年を契機に<知事ガ><方針ヲ>実現させたい」と話している。 高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を(φガ)撤廃する方針を明らかにした。 高知県の現在の一般事務職の採用は日本国籍が要件。 国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を(φガ)禁じる規定はない。 橋本知事は「地方行政の運営上、国籍条項の必要性は(φガ)感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として(φガ)排斥する理由はない。戦後五十年を契機に(φガ)(φヲ)実現させたい」と話している。 • あ
2種類のモデル • 人間の内省に基づいた規則に基づいて省略生成を行うモデル • 1の規則に加え,他の談話的な特徴も加えた2値分類モデル
規則ベースの解析モデル • Salience reference list (SRL; Nariyama, 2002) • センタリング理論の前向き中心の拡張 SRL 高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を(φガ)撤廃する方針を明らかにした。 高知県の現在の一般事務職の採用は日本国籍が要件。 国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を(φガ)禁じる規定はない。 橋本知事は「地方行政の運営上、国籍条項の必要性は(φガ)感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として(φガ)排斥する理由はない。戦後五十年を契機に(φガ)(φヲ)実現させたい」と話している。 • 生成の規則: • SRLで候補が最上位にある場合に「省略する」 • それ以外の場合は「省略しない」
2値分類モデル: 訓練事例の作成 • 訓 橋本大二郎知事 : 最初の表現は必ず名詞句 分類対象 φ 「省略する」 橋本知事 「省略しない」 φ 「省略する」 φ 「省略する」 φ 「省略する」
素性 (1/2) • 対象となる談話要素Xiが • 最初の文に出現 / 最後の文に出現 • 最初の段落に出現 • X1の主辞の文字列 • 固有名の場合は<人名><組織名>などに • X1の固有名ラベル • X1の格助詞 • Xiが引用の中に出現 • XiとXi-1が異なる段落に出現 • Xi が共参照連鎖の最後の要素(Xn)である X1 … Xi-1 Xi … Xn
素性 (2/2) • X1〜Xi-1のいずれかがSRLの(上位)N番目に出現している • Xiの係り先の述語の文字列 • Xiの係り先の述語が受動態を伴う • Xiから文末までの係り受けのパス中の機能語の品詞 / 文字列 • Xiの深層格(ガ/ヲ/ニ格) X1 … Xi-1 Xi … Xn
評価実験 • 評価データNAISTテキストコーパス1.4β • 実験設定 • 文章中の共参照連鎖は正しく与えられているものとする • SRLの作成には前方文脈で参照表現がどのように生成されているかという情報が必要 • 対象とする問題より前の文脈では正しく解析できていると仮定 • 2値分類の学習: 最大エントロピーモデル • 「省略しない」を当てる問題として再現率,精度,F値を求める
評価結果 • 規則ベースの手法より2値分類モデルの結果が良い • 誤りを見てみると新聞記事のスタイルを反映しているため,必ずしも顕現性の高い表現が省略されるとは限らない • 記事を短くするために過剰に省略する,など そもそも人間の判断がどのくらい一致するのか?
実験2: 人による省略判定 • 新聞記事にアノテーションされた関係を参考に人間にどう生成すべきかを判断してもらう問題 • 述語のガ/ヲ/ニ格のみ • 人手のラベル(3種類) • 主題化する(t)/ 主題化しない(o)/ 省略する(x) • コーパスには談話要素が省略された場合の出現位置はアノテーションされていないため,人手で出現位置を復元 • 作業者:自然言語処理研究者 3人
作業結果 • それぞれのタグをどのくらい付けたか
作業の一致率 • 新聞との一致率も見てみる • 一致率(strict): o と t を区別して計算 • 一致率(lenient): o と t を区別せず計算
50記事を対象に2値分類モデルを適用 • 人の判断 / 新聞に付いたタグの両方を比較
人手分析 • 3人の作業結果が一致した箇所を人手で調査 • t の場合 (明示的に表記され主題化される) • は / には • oの場合 (明示的に表記され主題化されない) • が / を / に • x の場合(省略される) • 以降でそれぞれの特徴を調査・分類 • 1つの事例が複数の分類項目として数えられることを許す
t が一致した具体例 • 顕現性が高いが言い直す • 主題は最初から最後までクリントン米大統領 • クリントン米大統領は十三日、クリーブランドで開かれた中欧通商投資会議でロシアのチェチェン紛争について演説、「武力衝突を即時終結し、和平に向かうべきだ」としながらも「チェチェンはロシア連邦の一部であり、連邦の領土保全を支持する」とエリツィン政権支持の姿勢を改めて明らかにした。... 「ロシアを含む旧ソ連圏の民主化は一朝にして実現できない。紛争のように悲劇や波乱に満ちているのは避けられない」と指摘、... 長期的視野に立って支援する必要性を訴えた。同大統領は「我々はロシアの安定と民主化の成功に大きな期待をかけており、忍耐と責任ある民主化支持政策から米国が逸脱することはあり得ない」と、エリツィン政権の民主化路線を今後も一貫して支持する姿勢を明示した。... (ID:4, 1_15)
t が一致した具体例 • 言い直さなければつながりが悪い(話題の転換などで) • 「議会の反対も...」の文が挿入されている • ベルルスコーニ首相辞任で表面化したイタリアの政治危機解決のため、スカルファロ大統領4は十三日午後、大統領府にディーニ国庫相を呼び、暫定政権の首相就任を要請し、これを受諾した。...ディーニ国庫相はイタリア中央銀行の副総裁から、ベルルスコーニ政権の国庫相になった無党派のテクノクラート。議会の反対も少なく、来週には戦後イタリア五十四代目のディーニ政権が発足する見通しだ。ディーニ氏はフィレンツェ出身で、国際通貨基金イタリア代表の後、中央銀行副総裁など重要な経済・金融ポストを歴任。...
o が一致した具体例主題とそれ以外の対比 • 経営が破たんした東京協和、安全の両信用組合を救済する新銀行が十三日、発足した。行名は「東京共同銀行」、資本金は二百十五億円で、頭取には両信組の理事長を兼ねる野口寿康氏が内定した。同銀行が実際に業務を開始するのは、営業譲渡したあとの三月二十日の見通しで、日銀・大蔵省が「不良債権処理の集大成」と意気込む。(ID:2, 4-2) • 現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに——。新進党の党首公選から目が離せなくなってきた。今回の党首選挙は、新進党が昨年十二月十日に結成されて以来、初めての公選である。 1文1主題の特徴を捉えることで生成の品質が向上する見込 がある
3. x の場合: ガ格 • 数が多いのでシステムが間違ったものだけ分析
x:ガ格が一致した具体例 • 大域的な主題は省略されやすい • 大域的な主題: 党首選挙 • 現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに——。新進党の党首公選から目が離せなくなってきた。今回の党首選挙は、新進党が昨年十二月十日に結成されて以来、初めての公選である。千円さえ払えばだれでも投票できるという公開方式で行われる。不正投票をどう防ぐかなどの問題点を抱えていることもあり、公選に対する国民の関心もいまひとつだった。しかし、羽田、小沢両氏の激突になれば、関心も盛り上がるのではないか。当初は、(党首選挙ガ)再選を狙う海部俊樹氏と一年前、国会議員による党首選で敗北した羽田氏の二人の対決になるのではと見られていた。
3. x の場合: ヲ格 / ニ格 • 数が多いのでシステムが間違ったものだけ分析 • ...そして、唐突に、擦り切れた革ジャンのポケットからリボンで結ばれた小さな包みを取り出し、汚れた皿の積み上げられたカウンターに(小さな包みヲ)置きます。 ヲ格・ニ格の省略こそ構文的なパタンを捉える必要あり
人手分析のまとめ • t (は/には)の生成 • 顕現性が高いにもかかわらず,「は」で生成 談話の移り変わりなど文章の構成を捉えた生成を考える 省略され続けた要素の言い直しの箇所や局所的な言い 回し(経歴などの過去の情報の述べるなど)を捉える問題 • o (が/を/に)の生成 • 同一文中に主題は基本的に1つだけ存在 1文1主題の制約を満たすような最適化問題を考える (「主題化する」「主題化しない」の2値分類問題も) • x (省略)の生成 • ガ格: 大域的な主題を捉える機構を考える • ヲ格/ニ格: 構文的な出現パタンを捉える
まとめと今後の課題 • まとめ • 文章中の談話要素を「省略する」「省略しない」の2値分類問題として解く • ゼロ照応・共参照関係がアノテーションされた新聞記事を対象に評価を行い,F値で0.550 • 人手作業結果との差分とその分析結果を報告 • 今後の課題 • 前述の個別の問題 • 人手判断が一致しなかった事例を調査 • 応用に利用する際,共参照の連鎖が必ずしも正しく解析できるとは限らないので,誤りを含む場合にも頑健に生成できるような仕組みを考える
推敲の具体例 修正前 修正後