720 likes | 786 Views
Web ページのグループ化による 静的動的スコアリング. 大阪教育大学大学院 教育学研究科 数理情報コース 039606 中窪仁. 背景. WWW 空間上には膨大な情報が存在 必要な情報のみの抽出は困難 ロボット型 Web 検索システム 大量の情報を蓄積 全文検索により必要と思われる情報を抽出 全文検索のみによる検索精度向上は困難. 他の手法と全文検索を併用し,精度向上を図る. 関連研究. リンク構造解析による手法 PageRank アルゴリズム 各 Web ページの有用性を示す Scam Web *1 の影響を受けにくい HITS アルゴリズム
E N D
Webページのグループ化による静的動的スコアリングWebページのグループ化による静的動的スコアリング 大阪教育大学大学院 教育学研究科 数理情報コース 039606 中窪仁
背景 • WWW空間上には膨大な情報が存在 • 必要な情報のみの抽出は困難 • ロボット型Web検索システム • 大量の情報を蓄積 • 全文検索により必要と思われる情報を抽出 • 全文検索のみによる検索精度向上は困難 他の手法と全文検索を併用し,精度向上を図る
関連研究 • リンク構造解析による手法 • PageRankアルゴリズム • 各Webページの有用性を示す • Scam Web*1の影響を受けにくい • HITSアルゴリズム • 各Webページの有用性を示す • 類似情報をもつWebページ群の抽出が可能 *1 Scam Web: Webページのスコアをあげるため,複数ダミーページからリンクを行う構造
PageRankアルゴリズム概要 • 基本概念 • ランダムウォークモデル • リンク行為=リンク先Webページの推薦 • 推薦元Webページの質と推薦数を考慮 • スコアの特徴 • 各Webページの遷移確率を表す固定値 • 検索語句に左右されない静的スコア
HITSアルゴリズム概要 • 基本概念 • Webページを2種類の観点で評価 • 情報源として有用なWebページ(Authority) • リンク集として有用なWebページ(Hub) • スコアの特徴 • 類似情報をもつWebページ群を抽出可能 • 検索語句に左右される動的スコア
各既存手法の問題点 • PageRankアルゴリズム • リンク行為=推薦行為? • 特定ページ以外へのリンクを拒否するWebサイト • 掲示板などの揮発性情報 • HITSアルゴリズム • 既知の問題 • 常に適切なコミュニティを抽出できるとは限らない
中継点 中継によりリンク元の影響力が減衰 各既存手法の問題点解決案 • PageRankアルゴリズム • 問題発生の原因 • リンク構造上隣接関係を基にしていること • 問題解決案 • 再帰的に解決されるリンク構造上隣接関係を考慮 • アルゴリズムの拡張 • リンク構造の拡張 リンク元 リンク先 ×
検索語句に無関係のWebページが存在 各既存手法の問題点解決案 • HITSアルゴリズム • 問題発生の原因 • 検索語句に関係ないWebページが考慮されること • 問題解決案 • アルゴリズム適用対象の精査 • 検索語句との関連性を考慮 アルゴリズム 適用範囲 全文検索 結果集合
提案手法 • グループ化 • Webページを一定法則においてグループ化 • 静的/動的スコアリング • グループ化を併用しリンク構造解析を適用 • ランキング • 複数スコアの併合により最終評価を決定
全文検索結果 スコアリング 全文検索スコア 動的スコア#1 リンク構造データ グループ化 動的スコア#2 静的スコア ランキング 提案システム 文書データ
グループ化 • 目的 • リンク構造上隣接関係の拡張 • Webページ集合への意味付与 • 基本概念 • 類似情報をもつWebページ集合をグループ化 • 類似情報:同一作成者/同一コンテンツ扱い • 2種類の方式:ディレクトリ構造/リンク構造 • グループ内リンク構造を削除
リンク構造方式 ディレクトリ構造方式 A B D A B D C E C E グループ化アルゴリズム HTML Root HTML Root Document Root Document Root
静的スコアリング • 目的 • Webページの重要度を決定 • PageRankアルゴリズム問題点を軽減 • 基本概念 • スコアリング対象は全Webページ • グループ化済みリンク構造を解析/評価
リンク構造方式 ディレクトリ構造方式 G G H H G G H H A A B B D D A A B B D D C C E E C C E E F F F F 静的スコアリング例 Web Site Web Site
動的スコアリング • 目的 • 検索語句依存のWebページ重要度を決定 • HITSアルゴリズム問題点を軽減 • 基本概念 • スコアリング対象は全文検索結果集合 • グループ化なしリンク構造を解析/評価(#1) • グループ化ありリンク構造を解析/評価(#2)
動的スコア#2 動的スコア#1 動的スコアリング例 U Y U Y V W X Z V W X Z Retrieved Documents Retrieved Documents
ランキング • 目的 • 複数スコアを併合し,最終的なスコアを決定 • 基本概念 • 各スコアの特性を生かす併合方式を採用 • 重み付け加算を利用 • 重み係数の適正値は実験により決定 • 各スコアの粒度を揃えた上で併合 • 各スコアに累乗根を適用
実験 • 目的 • 提案手法の有効性を検証 • 既存手法との比較検証 • 実験項目 • グループ化評価 • 全文検索/静的/動的スコア単体評価 • 併合スコア評価/重み係数最適値検証
プロトタイプ • 全文検索 • 可変長グラムベースインデクス • tf-idf法+確率モデルによるスコアリング • スコアリング結果上位2500件を抽出 • リンク構造解析 • PageRankアルゴリズムによるスコアリング
検索対象 • NTCIR-4 Web テストコレクション*2 • 文書データ • NW100G-01(元HTMLデータ100GB分) • Webページ総数:約1100万Webページ • リンク構造データ • リンク総数:約8000万リンク *2 NTCIR: 情報検索システム評価用テストコレクション構築プロジェクト (NII-NACSIS Test Collection for IR Systems)
検索課題 • NTCIR-4 Web Task B Formal Run • 検索課題総数:300課題 • 有効課題数:197課題 • 本実験で利用した検索課題 • 検索課題数:77課題 • NTCIR-4 Webにおける有効課題より抽出 • 全文検索による抽出文書数が一定数以上の検索課題
評価手法 • Weighted Reciprocal Rank(WRR) • 高適合文書の抽出ランクを評価 • Discounted Cumulative Gain(DCG) • 適合文書抽出の連続性を評価 • 11点平均適合率(適合率,再現率) • 特定再現率における適合率を評価 • 累積適合課題数 • 適合文書抽出課題数を評価
グループ化処理結果 • グループあたりWebページ数に偏り • グループあたりリンク数に影響する可能性 グループ化手法の再検討が必要
> > > < グループ化処理結果比較 • 静的スコアリング:ノード数減/リンク数減 • 動的スコアリング:ノード数減/リンク数増 提案手法において期待した処理結果
各スコアリング結果比較 グループ化によるスコアの平均化 →適合文書の抽出能力低下
< < < < > > < < 各スコアリング結果比較 グループ化有無でスコア分布傾向が変化 最大値:グループ化なし > グループ化あり 最小値:グループ化なし < グループ化あり
各スコアリング評価Weighted Reciprocal Rank グループ化あり静的スコア単体では 適合文書抽出不可能
各スコアリング評価Weighted Reciprocal Rank 動的スコアはランクにより優位性が変化
静的スコアリング評価結果詳細手法別 適合文書抽出課題数 未抽出 グループ化有無 グループ化なし グループ化なし グループ化あり グループ化あり グループ化なし:61% / グループ化あり:13%
動的スコアリング評価結果詳細手法別 適合文書抽出課題数 未抽出 グループ化有無 グループ化なし グループ化なし グループ化あり グループ化あり グループ化なし:32% / グループ化あり:31%
特定のスコアをベースにスコア併合を行う • 全文検索スコアをベースと扱う • グループ化有無ともに併合を行う • グループ化なし静的スコアを考慮 スコア併合式検討 • 各スコア単体ではランクへの影響が微小 • グループ化有無でスコアの特徴が正反対
検討後スコア併合式 • 併合スコア(p) = Wr×全文検索スコア(p)+静的スコア(p)+動的スコア(p) • 静的スコア(p) = Ws1×グループ化なし静的スコア(p) +Ws2×グループ化あり静的スコア(p) • 動的スコア(p) = Wd1×動的スコア#1(p)+Wd2×動的スコア#2(p)
(Wr, Ws1, Ws2, Wd1, Wd2) [ Rank ] Wr = {1, 2}, Wx = {0, 1, 2}, x∈{s1, s2, d1, d2} 動的スコアなし 動的スコア#1 or #2 単体 動的スコア併合 適正重み係数調査結果 … … … …
+6% +180% vs. “tf-idf+PageRank”Weighted Reciprocal Rank
+6% +140% vs. “tf-idf+PageRank”11点平均適合率
提案手法考察グループ化 • 手法 • 各グループの粒度に格差 • 効果 • 静的スコアリング:ノード数減/リンク数減 • 動的スコアリング:ノード数減/リンク数増 グループ化の有効性を確認 グループ化手法については再検討が必要
提案手法考察静的スコアリング • グループ化適用によるスコアへの影響 • スコア適用先が変更 • グループ化なしスコアと異なる文書にスコアリング • スコアの平均化 • ランキングへの影響度が減少 既存手法では抽出できない文書を抽出可能 ランキングを大きく変動させることは不可能
提案手法考察動的スコアリング • 精度面で非常に劣る結果 • 不適合文書を多く抽出 • グループ化精度の影響 • 各スコアリングの特徴 • #1:既存手法と同様の文書に僅かな影響力 • #2:既存手法と異なる文書に大きな影響力 グループ化手法検討後に再実験が必要
提案手法考察ランキング • 評価結果 • 動的スコアを併合しない算出式が最良結果 • グループ化精度の影響 • 既存手法に比べ6%程度の精度向上 • スコア併合式/適正重み係数 • 今回の実験では決定不可能 提案手法による精度向上を確認
まとめ • グループ化によるランキング手法を提案 • 各提案手法の有効性を確認 • 提案手法による精度向上を確認 • 今後の課題 • グループ化手法の再検討 • スコア併合式/適正重み係数の検討
100 53 50 50 9 50 3 3 3 PageRankアルゴリズム例
適用手順 H: 0 A: 0.408 H: 0.408 A: 0 H: 0 A: 0.816 H: 0.408 A: 0 Root H: 0 A: 0.408 H: 0.408 A: 0 HITSアルゴリズム例 • スコアリング Base
スコア併合式 • 併合スコア(p) = Wr×全文検索スコア(p)+Ws×静的スコア(p)+Wd×動的スコア(p) • 動的スコア(p) = Wd1×動的スコア#1(p)+Wd2×動的スコア#2(p)
評価方式 • NTCIR-4 Web Task B 適合判定結果 • 多値適合レベル • 高適合,適合,部分適合,不適合の4レベル • 適合文書 • 高適合,適合,部分適合 • 不適合文書 • 不適合