Web フォーラムの構文情報を用いたトラブルシュート文書抽出

Webフォーラムの構文情報を用いたトラブルシュート文書抽出 Webフォーラムの構文情報を用いたトラブルシュート文書抽出 2008.3.14 東京大学工学部電子情報工学科栗田光晴柴田剛志田浦健次郎近山隆

本研究の背景 • ソフトウェアのトラブルシュート情報 • ほとんどの場合 Web上の情報源トラブル原因が分からないと検索できない原因が分かってもその表現が多様すぎる検索語や表現を少しずつ変えて検索を繰り返してしまう

本研究の目的 • トラブルシュート文書の効率的取得のために • 検索語に対するマッチでは順位の低いトラブルシュート文書も発見が容易に • トラブルシュート事例の自動収集等の応用可能性文書の「トラブルシュートらしさ」を評価

トラブルシュート文書の特徴 • 「トラブルシュートらしさ」の所在 • 文書の特徴としては、単語を用いるのが一般的 • トラブルシュート文書から特徴語を取り出すと、トラブルシュートの特徴とともに扱われているソフトウェアの特徴語が取り出されると考えられる • 単語よりも大きな単位で、トラブルシュートに出現するような表現に相当する特徴を抽出トラブルシュート文書における構文の構造上の特徴を利用

関連研究 • 構文解析を用いた大量テキストからの情報抽出 • Info-Pubmed [薬師寺ら 06] • 述語項構造と呼ばれる構文情報を利用 • 医学・生物学分野の論文からタンパク質の相互作用情報を抽出 • On Demand Information Extraction[関根ら 06] • テキスト中に頻出する係り受け構造を抽出 • そこに含まれる固有表現を表にして出力 • 構造化されていないテキストデータから、構造化された表形式のデータを作成

提案手法 • トラブルシュート文の構文情報における特徴的な構造を抽出 • 取り出された特徴構造の各々をスコア付け • 評価対象文書中に出現した特徴構造に基づき文書のトラブルシュートらしさを評価トラブルシュート文書の構文的特徴を用いた文書スコアリング

構文情報 : 述語項構造 • 文中の単語の意味的なつながりを表す情報 • 意味上の主述関係・修飾関係などが得られる “The book written by the author is funny.”

トラブルシュート文の構造例 • 実際のトラブルシュート文書から得られた例 • “I am having problem”が共通 • 連続する単語列はbe have 以外は一致しない • 構文解析を行い両者のグラフの一致を調べることで、上記の共通する表現の存在が機械的に確認できる • この特徴は、“Internet” や “sound card”よりもトラブルシュートらしさとして適切 “I am having problem connecting to the Internet.” “I am having problem connecting to the Internet.” “I’ve been having weird problem with my soundcard”. “I’ve been having weird problem with my sound card”.

特徴構造の取り出し • 多数のトラブルシュート文を収集 • それらの文書の構文解析により、構文に基づく単語のグラフ構造を取得トラブルシュート文書単語をノードとしたグラフ構造構文解析

特徴構造の取り出し • 多くのグラフに共通する部分グラフを抽出 • 大量のグラフ構造データからの頻出部分抽出 • gSpanアルゴリズム • 多数のグラフ構造データから一定回数以上出現する部分グラフを数え上げる一定回数以上出現する部分グラフ

特徴構造と文書のスコア • 特徴構造のスコア • 構造を単位とした TF-IDF によって定める • TFはgSpanの出力から得られている • IDF の算出には、トラブルシュートに限らないクロールによる文書を利用 • 評価対象文書のスコア • 文書中の文を構文解析、上述の頻出構造とマッチング • マッチした頻出構造のスコアの和を文書のスコアとする

実験 • ある検索語について Google による検索結果を50件取得 • 各文書は人手でトラブルシュートか否か判定 • 提案手法によって文書をスコアリングし、それによってソート • トラブルシュート文書の順位を MAP (Mean Average Precision)で評価

実験設定 • サンプルとしたトラブルシュート文 • Open Source and Linux Forums各トピックの先頭の発言のうち、タイトルに含まれる語の割合が最も高い一文を取り出し 43975文 • これらの中に100回以上出現する部分構造を抽出 • IDFの算出に用いる文書 • 無作為なクローリングによって収集されたWeb上のドキュメント 20964件

実験設定 • 検索語 • 構文解析には Enju[宮尾ら]を利用 • gSpanの実装としては Optimized gSpan[Jahnら]を利用

実験結果 MAP • 元々の検索結果、特徴語を用いたスコアリングによる結果と比較し、提案手法によって Average Precision が上昇

考察 • 特徴語によるスコアリングとの比較 • 特徴語によってスコアリングを行った場合にも、ある程度のMAPの改善は見られた • 一部の検索語に対しては、特徴語と特徴構造でAverage Precisionに大きな違いが見られた • その原因を確認するために、特に顕著な差を示した “vmware hp” という検索語に対する結果について調べる

考察:特徴語による評価の例 • “vmware hp” という検索語に対するソート結果 • HP extends VMWare support - Network World • HP Press Release: HP First to Reach Milestone of 100000 Blade ... • ITworld.com - HP, VMware each launch new virtualization options • トラブルシュートとは関係のないニュース記事などが最上位に • “linux” “server” などの語が高いスコア

考察:特徴構造を用いた場合 • 同じ検索結果を特徴構造でソートした結果 • Business support forums - HP MSA 1510i problems with VMWare • VMware Communities: VMWare workstation 6 on HP-6910p ... • VMware Communities: HP RGX ... • Web上のフォーラムにおけるトラブルシュート文書が先頭に配置

考察:特徴語との比較 トラブルシュート文から取り出された特徴の違い • 特徴語を取り出した場合 • linux、suse、fedora、ubuntuといった、「Linuxの特徴語」が高いスコアを得ている • サンプルとした文書の分野の特徴語を取り出してしまっている • それに対し、特徴構造ではこのような語を含む構造のスコアはこれほど高くない

考察:特徴語との比較 トラブルシュート文から取り出された特徴の違い • 特徴構造を取り出した場合 • 特に大きな構造としては以下のようなもの、またこれらの部分構造などが多く取り出されていた

考察 • 特徴構造を用いた場合、抽出単位は語ではなく2語以上のつながり • 出現頻度が高い語も、他の語と共に作る構造に頻出するものがない場合にはほとんど取り出されない特徴構造は単語よりも広い範囲で文中の表現上の特徴を捉えている

まとめ • 構文上の特徴構造の利用 • ある文書群に特徴的な構文構造を抽出 • 単語よりも大きな範囲での文の特徴を捉えられる • 単語による特徴抽出では取り出しにくい表現上の特徴をとらえられる • トラブルシュート文書の抽出には一定の効果 • 特徴語によるものと比較して、 MAP にして0.28の改善

今後の課題 • トラブルの解決部分の抽出 • 本実験ではトラブル報告文の構造で文書を評価 • その解決法の記述の有無は考慮されていない • トラブルシュート文書以外の文書群への適用 • 表現に共通する特徴を持つ文書の類似文書抽出の可能性 • 文書群ごとの特徴構造の違い

Web フォーラムの構文情報を用いた トラブルシュート文書抽出