1 / 40

文書横断文間関係の特定

文書横断文間関係の特定. 奥村研究室 宮部 泰成. 目次. 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5 .「同等」の特定手法 6 .「同等」の特定実験 7 .「推移」の特定手法 8 .「推移」の特定実験 9 .まとめと今後の課題. 1: 携帯電話による 情報提供サービス「iモード」 の契約件数が百万件を突破 したと発表した。. 1: 携帯電話による 情報提供サービス「iモード」 の契約件数が十八日で二百 万件を突破したと発表した。. 3: iモードは、情報配信から チケット予約や通信販売など の電子商取引までの多様な

lars-gentry
Download Presentation

文書横断文間関係の特定

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文書横断文間関係の特定 奥村研究室 宮部 泰成

  2. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の特定実験 7.「推移」の特定手法 8.「推移」の特定実験 9.まとめと今後の課題

  3. 1:携帯電話による 情報提供サービス「iモード」 の契約件数が百万件を突破 したと発表した。 1:携帯電話による 情報提供サービス「iモード」 の契約件数が十八日で二百 万件を突破したと発表した。 3:iモードは、情報配信から チケット予約や通信販売など の電子商取引までの多様な サービスが売り物。 3:「iモード」は、情報配信から チケット予約や通信販売など の電子商取引まで多様化した サービスが売り物だ。 研究背景 • 同じ一つのトピックについて書かれた異なる新聞記事中の文間には様々な関係がある 「i-modeのサービス開始」に関するトピック 推移 同等 文書A 文書B

  4. 文書横断文間関係 • 文書横断文間関係 • Radev[00]が提唱 • 24個の文書横断文間関係を定義 • 衛藤[05]が日本語の新聞記事に対し定義 • 14個の文書横断文間関係 例:異なる文書中の文間が同じ内容を表す「同等」 数値が変化している「推移」 同じ内容を詳しく述べる「詳細」 同じ内容を簡潔に述べる「簡略」

  5. 研究の目的 • 「同等」、「推移」という2つの関係に着目 • 機械学習を用いて、文書横断文間関係の「同等」「推移」の特定を目的 • 文書横断文間関係の特定は様々な分野において有用 • 複数文書要約、QA、情報抽出 (例)テキスト間で同じ内容を述べていると認識できれば、 要約文を抽出するときに冗長な要約となるのを避ける ことができる

  6. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の特定実験 7.「推移」の特定手法 8.「推移」の特定実験 9.まとめと今後の課題

  7. 3:・・・・・ 1:第144臨時国会が 27日召集される。 2:会期は12月14日 までの18日間。 機械学習に基づく「同等」の特定 3:・・・・・ 1:第144臨時国会が 27日開会した。 • 2文が与えられたとき、「同等」か否かを特定する2値分類問題 • 「同等」の特定規則の獲得は人手でなく機械学習を使用 • 学習器:Support Vector Machine 2つの文が「同等」か否かを特定する2値分類問題 2:会期は来月14日 までの18日間。 文書A 文書B

  8. 「同等」の特定における問題点(1/2) • 問題点1:2つの文(S1,S2)の表層的類似度が高い「同等」や低い「同等」が存在し、これらを一緒に扱うことは良くない (U1はS1中の自立語(名詞、動詞、形容詞)の頻度ベクトル) • S1:成果は二日付の英科学誌「ネイチャー」に掲載される。 • S2:この成果は2日発行の英科学誌「ネイチャー」に掲載される。 • S1:ハイブリッド車の開発はトヨタ自動車が先行し、昨年12月に • 「プリウス」を発売。 • S2:トヨタは、他社に先駆けて1997年にHV「プリウス」を発売。

  9. 「同等」の特定における問題点(2/2) • 問題点2:類似度がそれほど高くない「同等」は特定が困難 • 「同等と似た関係」が存在する • 同じ内容を詳しく述べる「詳細」 • 同じ内容を簡潔に述べる「簡略」 • 「同等」の数が少ない 例:類似度がそれほど高くない文ペア(0.5<cos≦0.6)の各関係の数

  10. 「同等」特定の問題点の解決策(1/2) • 問題点1:類似度が高い「同等」や低い「同等」の存在 • 2つの文の類似度でクラスタに分ける • 表層的に大変類似しているクラスタ(upクラスタ) • 自立語+機能語(助詞,助動詞)の連接レベルで類似 • ある程度類似しているクラスタ • 連接レベルで似ていない • 負例が多いか少ないかで更に分ける • ある程度類似しているクラスタ(midクラスタ) • 負例が多く特定が困難なクラスタ(downクラスタ)

  11. クラスタ例 • 例1:表層的に大変類似しているクラスタの例 • S1:成果は二日付の英科学誌「ネイチャー」に掲載される。 • S2:この成果は2日発行の英科学誌「ネイチャー」に掲載  •    される。 • 例2:ある程度類似しているクラスタの例 • S1:JRグループのダイヤが十三日改正され、東海道・ • 山陽新幹線に新型車両「700系」がデビューした。 • S2:JR東海とJR西日本が共同で開発した新型新幹線 • 車両「700系」が、JRのダイヤ改正があった • 十三日デビューした。

  12. 「同等」特定の問題点の解決策(2/2) • 問題点2 :類似度が高くない「同等」は特定が困難 • 2段階の特定法(coarse-to-fine特定法)を用いる (1):「同等」「簡略」「詳細」を1つの粗いクラス(coarseクラス)にまとめて特定 (2):(1)で特定したcoarseクラスから「同等」のみ(fineクラス)を特定

  13. 本研究のモデル 全データ(0<cos≦1) 連接レベルで似てるか ある程度類似している 表層的に大変類似している  クラスタ(midクラスタ)  クラスタ(upクラスタ) 負例が多いか 負例が多く特定が困難なmidクラスタ クラスタ(downクラスタ) 「同等」 を特定 coarseクラス(「同等」「簡略」「詳細」)の特定 「同等」のみを特定

  14. 「同等」の特定で使用する素性 • 基本素性(14種類) • unigram類似度,bigram類似度,trigram類似度, • 固有表現類似度,意味類似度 • 新聞記事の掲載日の差,文の位置,固有表現が係る一致した格助詞,etc • fineクラスの特定で使用する素性(19種類) • 基本素性 • 主題の一致 • 主動詞の一致,etc

  15. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の特定実験 7.「推移」の特定手法 8.「推移」の特定実験 9.まとめ

  16. 「同等」特定の実験環境 • コーパスとデータ • テキスト自動要約タスク2,3、動向情報の抽出と可視化のワークショップ • 文書横断文間関係が付与してある • 1文対1文で関係が付与されたデータのみ扱う • 471586 個の文ペアから798 個の「同等」を特定 • 評価尺度 • 精度、再現率、F値 • 10分割交差検定で評価

  17. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の特定実験 6-1.閾値の推定 7.「推移」の特定手法 8.「推移」の特定実験 9.まとめ

  18. downクラスタ  midクラスタ upクラスタ クラスタ分けの閾値の推定 • 閾値を推定するデータと評価 • 訓練データの10分割交差検定 • 閾値 • 「upクラスタ」と「midクラスタ」の閾値 • 「midクラスタ」と「downクラスタ」の閾値 閾値 閾値 0 1 cos

  19. 「upクラスタ」と「midクラスタ」の閾値の推定(1/2)「upクラスタ」と「midクラスタ」の閾値の推定(1/2) • 2つのクラスタの違い • 自立語(名詞、動詞、形容詞)+機能語(助詞、格助詞)の連接レベルで似ているかどうか • 「midクラスタ」の特定 • bigram類似度素性を使用しない方が精度と再現率は良くなると仮定 • 各閾値での精度と再現率を調べる (1)14種の素性を使用したとき (2)14種の素性からbigram素性を省いたとき

  20. 素性を省くことによって、精度と再現率が良くなった例素性を省くことによって、精度と再現率が良くなった例 • 閾値を1から0.01づつ減らしていく • bigram類似度以外の素性でも同様に調べる bigram類似度素性を省いて精度と再現率が初めて良くなるときを閾値とする

  21. 「midクラスタ」と「downクラスタ」の閾値の推定(1/2)「midクラスタ」と「downクラスタ」の閾値の推定(1/2) • コサイン類似度の値が減っていくにつれて • 「同等」の数は減っていく • 「同等」以外の関係の数が非常に多くなっていく • 閾値を下げていくにつれて、特定が困難になる • 「midクラスタ」のF 値が一番良くなる閾値が存在すると仮定

  22. 「midクラスタ」と「downクラスタ」の閾値の推定(2/2)「midクラスタ」と「downクラスタ」の閾値の推定(2/2) • 閾値を同様に0.01づつ減らしていき、各閾値で精度、再現率、F値を調べる 最もF値が高いときを閾値とする

  23. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の特定実験 6-2.「同等」特定の実験結果 7.「推移」の特定手法 8.「推移」の特定実験 9.まとめ

  24. 各モデルの説明 • ベースライン • コサイン類似度0.84以上を同等とみなす • div • 推定した閾値でクラスタに分けて特定 • Notdiv • クラスタに分けない単純な学習モデル • 旧Mixモデル(宮部[05]) • 0.5と0.7でクラスタに分けて、coarse-to-fine特定法を組み合わせたモデル • 新Mixモデル • 本モデル,推定した閾値でクラスタに分けて、coarse-to-fine特定法を組み合わせたモデル

  25. 「同等」特定の実験結果 新Mixモデルと旧Mixモデル • 有意確率p≦0:037、有意水準5%で有意差がある 新MixモデルとNotdiv • 有意確率p≦0:037、有意水準5%で有意差がある 本研究のモデルが最も良いF値となった

  26. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の実験結果 7.「推移」の特定手法 8.「推移」の実験結果 9.まとめ

  27. 「推移」特定において着目する点 • 「推移」 • 2文間で数値が変化している関係 • 下記の例の場合「推移」関係ではない S1:4月の女性の完全失業率は逆に0・3ポイント改善し、4・5%となった。 S2:完全失業率は3、4月に連続して4・8%を記録した。 • 例文の赤字の部分(数値を値として持つ名詞句)を抽出 • 係り受け情報を利用

  28. 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 1.数値表現(日付表現を除く)のある句(数値句と呼ぶ)を探す

  29. 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 2.数値句が係る用言のある句(述句と呼ぶ)を探す

  30. 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 3.述句に係る名詞句を探す(「数値を値として持つ名詞句」になる)

  31. 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 4.日付表現を除いた「数値を値として持つ名詞句」に係る句を探す。 係る句と「数値を値として持つ名詞句」合わせて「数値を値として持つ名詞句」になる。

  32. 「推移」特定で使用する素性(20種類) • 素性 • 「数値を値として持つ名詞句」の名詞のunigram,bigram,trigram類似度 • 2文で数値が変化したかどうか • 2文に相対表現(難波ら[05])があるかどうか,etc (例)前年より10%増加 前日比210円安

  33. 「同等」特定結果の利用 • 「同等」関係である2文は、ほとんどの場合で「数値を値として持つ名詞句」は似ている S1:子羊の体重は二・七キロ。 S2:子羊の体重は2.7キログラム。 • 実際は「同等」であるのに,誤って「推移」と特定することが生じる可能性がある • 本モデルが「同等」と特定した文ペアをデータから除いて特定する

  34. 目次 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5.「同等」の特定手法 6.「同等」の特定実験 7.「推移」の特定手法 8.「推移」の特定実験 9.まとめ

  35. 各モデルの説明(1/2) • ベースライン • 数値を値として持つ名詞句の類似度0.7以上 • 数値が変化していて、2文に相対表現がある場合 • 562個の推移を特定 • 難波らの手法(難波ら[05]) • 2文のコサイン類似度0.42以上 • 2つの文の単位が等しく、2文に相対表現がある場合

  36. 各モデルの説明(2/2) • NotUseEqResult • 「同等」結果を利用しないで特定したモデル • UseEqResult • 「同等」結果を利用して特定した本研究のモデル • UseMan • 人手で付与された「同等」結果を利用して特定したモデル

  37. 「推移」特定の実験結果 本研究のモデルは、ベースラインや従来手法より良いF値となった 人手で付与された「同等」結果の利用とほとんど変わらないF値となった

  38. まとめ • 異なる記事中の文間が同じ内容を述べているかを機械学習を用いて特定する手法を提案した • クラスタに分ける手法とcoarse-to-fine特定法 • 単純に学習する手法より優れた結果となった • 異なる記事中の文間で数値が変化しているかを機械学習を用いて特定する手法を提案した • 「数値を値として持つ名詞句」の抽出 • 従来手法より優れた結果となった

  39. 今後の課題 • 文脈や背景知識の利用 • 照応・省略表現による表記の揺れ • 「同等」「推移」ともに特定できないエラーが起きた • 照応や省略の補完が必要 • 多文関係の対応 • 1文対多文,多文対1文,多文対多文関係の特定 (例)トピックセグメンテーション問題から多文を決定

More Related