390 likes | 557 Views
意見抽出を目的とした 機械学習による属性-評価値同定. 奈良先端科学技術大学院大学 飯田龍 小林のぞみ 乾健太郎 松本裕治 NEC インターネット研究所 立石健二 福島俊一. 肯定的 な記事. 否定的 な記事. 文書集合を肯定的(否定的)な文書に 分類 ( Turney ’02, Pang ‘04). 車1 を購入した。 デザイン は 悪くない が シンプルすぎ 。 ちょっと 物足りない かな。 走り に関しては 満足しています 。. 分類. 抽出. 意見抽出の研究. Web 上のレビュー記事や blog などから 意見や評判を分類/抽出する. 車1.
E N D
意見抽出を目的とした機械学習による属性-評価値同定意見抽出を目的とした機械学習による属性-評価値同定 奈良先端科学技術大学院大学 飯田龍 小林のぞみ 乾健太郎 松本裕治 NECインターネット研究所 立石健二 福島俊一 NL-165-4
肯定的な記事 否定的な記事 文書集合を肯定的(否定的)な文書に分類(Turney ’02,Pang ‘04) 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 分類 抽出 意見抽出の研究 • Web上のレビュー記事やblogなどから意見や評判を分類/抽出する 車1 デザイン 悪くない Web文書 文章中から意見に該当する箇所を抽出(Nasukawa ‘03, Kanayama ‘04) 車1 デザイン シンプルすぎ 車1 走り 満足している … NL-165-4
車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 意見要約(立石ら ‘04) • 抽出の観点からの研究の一例 • 対象記事中の意見をレーダーチャートの形で要約 Web文書 要約 NL-165-4
意見の定義 • 抽出対象となる意見をどのように捉えるのかが問題となる 「意見」というものを2つの観点から考える • 意見の構成素 • 意見性 NL-165-4
意見の構成素 • 〈対象, 属性, 評価値〉の3つ組 • 対象: 商品名など • 属性: 対象のある側面を表す表現 • 評価値: 属性値か主観評価のどちらかを含む • 属性値: 属性の値を指す表現 • 主観評価: 属性値に該当しない書き手の 個人的な感想などを指す 例) 車1の内装が{きれい/落ち着く}。 (属性値) {好きだ/許せない}。 (主観評価) NL-165-4
意見性 • どのような表現を意見とするかの基準 • 伝聞例) 彼は車1の内装がよいと言っていた • 仮定表現例) デザインがもう少し落ち着いた感じならば、… • 記事の書き手の主観的な意見のみが意見 性を持つ例) oエンジンの音が静かですね。xエンジンの音が静かだったら、… (仮定)xエンジンの音が静かだと聞いている (伝聞) NL-165-4
意見の定義(まとめ) 「意見」とは.. • 意見の構成素 • 〈対象, 属性, 評価値〉の3つ組 • 意見性 • 記事の書き手の主観的な意見のみが意見性を持つ この2つの条件を満たすものを抽出の対象とする NL-165-4
車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 属性 属性 評価 評価 意見要約の処理 属性表現辞書 評価値表現辞書 Web文書 (1) 辞書作成(Kobayashi ‘04) デザイン走り… 良い悪い… (2) Web文書 属性-評価値抽出 車1 走り 満足 (3) チャート作成 (4) Positive-negative(P/N)判定 車1 内装 きれい P 車1 走り 満足 P 車2 値段 高い N NL-165-4
車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 属性 属性 評価 評価 意見要約の処理 属性表現辞書 評価値表現辞書 Web文書 (1) 辞書作成(Kobayashi ‘04) デザイン走り… 良い悪い… (2) Web文書 属性-評価値抽出 車1 走り 満足 (3) チャート作成 (4) Positive-negative(P/N)判定 目的属性-評価値抽出のタスクに着目し,精度良く属性と評価値の対を抽出 車1 内装 きれい P 車1 走り 満足 P 車2 値段 高い N NL-165-4
目次 • 意見抽出の研究 • 意見抽出の先行研究 • 意見抽出の提案手法 • 評価実験とその考察 • まとめ NL-165-4
車1を購入した。 デザインは悪くないがシンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 意見抽出の先行研究(Kanayama ‘04) • 文章を述語項構造に変換 • 抽出パタンを用いて意見のみを抽出 述語項構造 変換 悪くない(デザイン) シンプルすぎ(デザイン) 物足りない(φ,デザイン) 満足している(φ,走り) 車1 デザイン 悪くない 抽出 車1 デザイン シンプルすぎ … NL-165-4
意見抽出の先行研究 • 項構造解析の処理にはゼロ照応解析などさまざまな処理を伴う デザイン1は悪くないが(φ1ガ)シンプルすぎ。 (φ2ガ) (φ1ヲ)ちょっと物足りないかな。 (φ2ガ)走りに関しては満足しています。 述語項構造 述語が取り得る項を記した辞書ゼロ照応解析の処理 悪くない(デザイン) シンプルすぎ(デザイン) 物足りない(φ,デザイン) 満足している(φ,走り) NL-165-4
研究の動機 • 頑健な項構造解析の実現は困難 • すべての述語について項構造解析を行う必要はない • 意見性を持った〈対象,属性,評価値〉という 限られた構造の抽出に焦点を当てる • 既存のゼロ照応解析の技術を導入することで どの程度意見が抽出可能であるかを調査する NL-165-4
目次 • 意見抽出の研究 • 意見抽出の先行研究 • 意見抽出の提案手法 • 評価実験とその考察 • まとめ NL-165-4
車1: デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 車1 走り 満足 属性 属性 属性 属性 評価 評価 評価 評価 走り 満足 意見抽出の問題設定 • 構成素〈対象,属性,評価値〉のうち,「対象(商品)」は自明である場合が多い • 2つ組〈属性,評価値〉を抽出対象に NL-165-4
車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 意見抽出の提案手法 A1 A2 …A3… A4 A5E1A6 … E2… E3 … Ai : 属性候補Ei: 評価値 NL-165-4
文書集合 A1 E1 A1, … , A6 E1 ( 1 )候補抽出 ( 2 )属性同定 ( 3 )意見性判定 A1 A2 …A3 … A4 A5E1A6 … E2… E3 … A3 E1 A1, … , A6 E2 A3 E1 A6 E2 A4 E3 A1, … , A6 E3 A4 E3 意見抽出の提案手法 • 属性候補,評価値候補の抽出 • 評価値候補と対となる属性を同定 • 評価値候補の意見性の判定 Ai: 属性候補Ei: 評価値候補 NL-165-4
文書集合 A1 E1 A1, … , A6 E1 ( 1 )候補抽出 ( 2 )属性同定 ( 3 )意見性判定 A1 A2 …A3 … A4 A5E1A6 … E2… E3 … A3 E1 A1, … , A6 E2 A3 E1 A6 E2 A4 E3 A1, … , A6 E3 A4 E3 1.候補抽出 • 属性表現辞書,評価値表現辞書に存在する表現のみを抽出 属性表現辞書 評価値表現辞書 A1, A2, A3,A4, A5, A6 E1, E2, E3 NL-165-4
文書集合 A1 E1 A1, … , A6 E1 ( 1 )候補抽出 ( 2 )属性同定 ( 3 )意見性判定 A1 A2 …A3 … A4 A5E1A6 … E2… E3 … A3 E1 A1, … , A6 E2 A3 E1 A6 E2 A4 E3 A1, … , A6 E3 A4 E3 2.属性同定 • 評価値と属性候補集合から〈属性,評価値〉を抽出する • 解析のモデル:トーナメントモデル(飯田 ‘04)を使用 NL-165-4
トーナメントモデル • 評価値に対して最も属性らしい候補を同定するモデル 内装 内装 広い デザイン 内装 エンジン 広い 属性候補集合 評価値 NL-165-4
A1’ A2’ A3’ E’ (b) 属性同定の処理 A2’ テストデータ 学習データ A1’ A2’ A3’ E’ を対となる属性と決定 A2’ トーナメントモデル A:属性候補E:評価値 A1 A2 A3 A4 A5 E 属性 評価値 (a) 訓練事例 素性 クラス A3 right E A2 A4 left A3 E A5 left E A3 NL-165-4
文書集合 A1 E1 A1, … , A6 E1 ( 1 )候補抽出 ( 2 )属性同定 ( 3 )意見性判定 A1 A2 …A3 … A4 A5E1A6 … E2… E3 … A3 E1 A1, … , A6 E2 A3 E1 A6 E2 A4 E3 A1, … , A6 E3 A4 E3 3.意見性判定 • 意見性の基準「記事の書き手の主観的な意見」を満たしているか否かを判定するモデルを作成 NL-165-4
意見性判定モデル • 今回定義した意見性の基準は前後文脈の表層的な手がかりである程度特徴を捉えることができる • エンジンが良いと思う → 意見性有り • エンジンが良いという人もいる → 意見性無し • 評価値単体では意見性を判定するのが困難な場合もある • (人が)…。 …多い。 • (ノイズが)…。 …多い。 →対となる属性を提示する NL-165-4
学習データ 意見性判定モデル(訓練事例作成) 正例 属性 評価値 … A2 E1 A1 A2 A3 A4 E1 E2 負例 意見性を持たない評価値 A:属性候補E:評価値 … 属性同定モデル A3 A3 E2 NL-165-4
A1’ A2’ A3’ E A2’ テストデータ A1’ A2’ A3’ E 〈属性,評価値〉対の抽出 A2’ E 属性同定モデル 意見性判定モデル A2’ E を対となる属性と決定 A2’ NL-165-4
目次 • 意見の定義 • 意見抽出の先行研究 • 意見抽出の提案手法 • 評価実験とその考察 • まとめ NL-165-4
意見タグ付きコーパス作成 • 車とデジカメのドメインのレビュー記事に対して〈属性,評価値〉のタグを人手で付与 NL-165-4
辞書の抽出 • タグ付与されたコーパスから抽出 タグ付きコーパス 室内が広い。 後ろの座席はとっても快適。 動力性能がよい。 属性辞書 評価値辞書 室内座席 動力性能 広い 快適よい NL-165-4
共起用例の抽出 • タグ付与されたコーパスから抽出 タグ付きコーパス 室内が広い。 後ろの座席はとっても快適。 動力性能がよい。 共起用例 室内-広い座席-快適動力性能-よい NL-165-4
属性 属性 評価 評価 共起用例 室内 快適 室内-広い座席-快適動力性能-よい ベースラインモデル • 共起用例に該当する対を網羅的に抽出 評価事例 室内が広い。 後ろの座席はとっても快適。 動力性能が悪い。 適用 室内 広い 座席 快適 NL-165-4
共起用例 室内-広い座席-快適動力性能-よい 素性 • 共起用例と同じ • 組み合わせか否か • 係り受けの関係に あるか否か • 距離情報 属性候補 評価値 • 対象文節の • 表層文字列 • 品詞係り元(先)の文節の • 表層文字列 • 品詞 • 対象文節の • 表層文字列 • 品詞係り元(先)の文節の • 表層文字列 • 品詞 NL-165-4
評価実験 • 実験の設定 • 分類器にはSVM(多項2次カーネル)を使用 • 10分割交差検定 NL-165-4
属性辞書 評価値辞書 9/10 1/10 共起用例 訓練事例 評価用事例 作成 適用 車 デジカメ 対全体 2649 3654 再現率の 上限値 抽出可能な対 1841 (69.5%) 2765 (75.7%) 辞書/用例の適用 NL-165-4
実験結果 再現率の 上限値 • ベースラインモデル • 辞書(用例)の網羅性が低い NL-165-4
誤り分析(属性同定) • 共起不可能な対の抽出 例1) 荷物が広い (既存の辞書で対応可能) 例2) VTECが静か NL-165-4
サウンドシステム(上位)音(下位) 誤り分析(属性同定) 2.共起可能な対の抽出 • タグの仕様:評価値に対して複数タグ付与可能な場合は最下層の属性にタグを付与例) 音の悪すぎるサウンドシステム • 誤って上位属性を同定 → ドメイン依存の知識を導入する必要がある NL-165-4
誤り分析(意見性判定) • 条件,仮定表現例)「内装がきれいならば」 • Bag-of-words素性で意見性を捉えられていない • 誤り事例をさらに調査し,追加すべき素性を検討 NL-165-4
まとめ • 意見抽出を目的とした属性-評価値の対を抽出する機械学習モデルを提案した • 提案するモデルは共起用例のみを用いた単純な抽出モデルと比べて,精度よく対の抽出が可能 NL-165-4
今後の課題 • さまざまな意見性の基準で提案手法を評価 • 今回の基準:「書き手の主観的な意見」 • 抽出したい意見情報は用途によって異なる 例) 伝聞,条件,要求なども抽出の対象とする 異なる意見性の基準で提案手法を評価する • ドメインに依存した知識獲得 • 応用可能性の評価 • 既存の辞書獲得手法で構築された辞書の利用 • 立石らの意見要約の枠組みへ導入 NL-165-4