Web ページのグループ化による静的動的スコアリング

Webページのグループ化による静的動的スコアリングWebページのグループ化による静的動的スコアリング大阪教育大学大学院教育学研究科数理情報コース 039606 中窪仁

背景 • WWW空間上には膨大な情報が存在 • 必要な情報のみの抽出は困難 • ロボット型Web検索システム • 大量の情報を蓄積 • 全文検索により必要と思われる情報を抽出 • 全文検索のみによる検索精度向上は困難他の手法と全文検索を併用し，精度向上を図る

関連研究 • リンク構造解析による手法 • PageRankアルゴリズム • 各Webページの有用性を示す • Scam Web*1の影響を受けにくい • HITSアルゴリズム • 各Webページの有用性を示す • 類似情報をもつWebページ群の抽出が可能 *1 Scam Web: Webページのスコアをあげるため，複数ダミーページからリンクを行う構造

PageRankアルゴリズム概要 • 基本概念 • ランダムウォークモデル • リンク行為＝リンク先Webページの推薦 • 推薦元Webページの質と推薦数を考慮 • スコアの特徴 • 各Webページの遷移確率を表す固定値 • 検索語句に左右されない静的スコア

HITSアルゴリズム概要 • 基本概念 • Webページを2種類の観点で評価 • 情報源として有用なWebページ（Authority） • リンク集として有用なWebページ（Hub） • スコアの特徴 • 類似情報をもつWebページ群を抽出可能 • 検索語句に左右される動的スコア

各既存手法の問題点 • PageRankアルゴリズム • リンク行為＝推薦行為？ • 特定ページ以外へのリンクを拒否するWebサイト • 掲示板などの揮発性情報 • HITSアルゴリズム • 既知の問題 • 常に適切なコミュニティを抽出できるとは限らない

中継点 中継によりリンク元の影響力が減衰各既存手法の問題点解決案 • PageRankアルゴリズム • 問題発生の原因 • リンク構造上隣接関係を基にしていること • 問題解決案 • 再帰的に解決されるリンク構造上隣接関係を考慮 • アルゴリズムの拡張 • リンク構造の拡張リンク元リンク先 ×

検索語句に無関係のWebページが存在 各既存手法の問題点解決案 • HITSアルゴリズム • 問題発生の原因 • 検索語句に関係ないWebページが考慮されること • 問題解決案 • アルゴリズム適用対象の精査 • 検索語句との関連性を考慮アルゴリズム適用範囲全文検索結果集合

提案手法 • グループ化 • Webページを一定法則においてグループ化 • 静的/動的スコアリング • グループ化を併用しリンク構造解析を適用 • ランキング • 複数スコアの併合により最終評価を決定

全文検索結果 スコアリング全文検索スコア動的スコア#1 リンク構造データグループ化動的スコア#2 静的スコアランキング提案システム文書データ

グループ化 • 目的 • リンク構造上隣接関係の拡張 • Webページ集合への意味付与 • 基本概念 • 類似情報をもつWebページ集合をグループ化 • 類似情報：同一作成者/同一コンテンツ扱い • 2種類の方式：ディレクトリ構造/リンク構造 • グループ内リンク構造を削除

リンク構造方式 ディレクトリ構造方式 A B D A B D C E C E グループ化アルゴリズム HTML Root HTML Root Document Root Document Root

静的スコアリング • 目的 • Webページの重要度を決定 • PageRankアルゴリズム問題点を軽減 • 基本概念 • スコアリング対象は全Webページ • グループ化済みリンク構造を解析/評価

リンク構造方式 ディレクトリ構造方式 G G H H G G H H A A B B D D A A B B D D C C E E C C E E F F F F 静的スコアリング例 Web Site Web Site

動的スコアリング • 目的 • 検索語句依存のWebページ重要度を決定 • HITSアルゴリズム問題点を軽減 • 基本概念 • スコアリング対象は全文検索結果集合 • グループ化なしリンク構造を解析/評価（#1） • グループ化ありリンク構造を解析/評価（#2）

動的スコア#2 動的スコア#1 動的スコアリング例 U Y U Y V W X Z V W X Z Retrieved Documents Retrieved Documents

ランキング • 目的 • 複数スコアを併合し，最終的なスコアを決定 • 基本概念 • 各スコアの特性を生かす併合方式を採用 • 重み付け加算を利用 • 重み係数の適正値は実験により決定 • 各スコアの粒度を揃えた上で併合 • 各スコアに累乗根を適用

実験 • 目的 • 提案手法の有効性を検証 • 既存手法との比較検証 • 実験項目 • グループ化評価 • 全文検索/静的/動的スコア単体評価 • 併合スコア評価/重み係数最適値検証

プロトタイプ • 全文検索 • 可変長グラムベースインデクス • tf-idf法+確率モデルによるスコアリング • スコアリング結果上位2500件を抽出 • リンク構造解析 • PageRankアルゴリズムによるスコアリング

検索対象 • NTCIR-4 Web テストコレクション*2 • 文書データ • NW100G-01（元HTMLデータ100GB分） • Webページ総数：約1100万Webページ • リンク構造データ • リンク総数：約8000万リンク *2 NTCIR: 情報検索システム評価用テストコレクション構築プロジェクト（NII-NACSIS Test Collection for IR Systems）

検索課題 • NTCIR-4 Web Task B Formal Run • 検索課題総数：300課題 • 有効課題数：197課題 • 本実験で利用した検索課題 • 検索課題数：77課題 • NTCIR-4 Webにおける有効課題より抽出 • 全文検索による抽出文書数が一定数以上の検索課題

評価手法 • Weighted Reciprocal Rank（WRR） • 高適合文書の抽出ランクを評価 • Discounted Cumulative Gain（DCG） • 適合文書抽出の連続性を評価 • 11点平均適合率（適合率，再現率） • 特定再現率における適合率を評価 • 累積適合課題数 • 適合文書抽出課題数を評価

グループ化処理結果 • グループあたりWebページ数に偏り • グループあたりリンク数に影響する可能性グループ化手法の再検討が必要

> > > < グループ化処理結果比較 • 静的スコアリング：ノード数減/リンク数減 • 動的スコアリング：ノード数減/リンク数増提案手法において期待した処理結果

各スコアリング結果比較 グループ化によるスコアの平均化 →適合文書の抽出能力低下

< < < < > > < < 各スコアリング結果比較グループ化有無でスコア分布傾向が変化最大値：グループ化なし > グループ化あり最小値：グループ化なし < グループ化あり

各スコアリング評価Weighted Reciprocal Rank グループ化あり静的スコア単体では適合文書抽出不可能

各スコアリング評価Weighted Reciprocal Rank 動的スコアはランクにより優位性が変化

静的スコアリング評価結果詳細手法別 適合文書抽出課題数未抽出グループ化有無グループ化なしグループ化なしグループ化ありグループ化ありグループ化なし：61% / グループ化あり：13%

動的スコアリング評価結果詳細手法別 適合文書抽出課題数未抽出グループ化有無グループ化なしグループ化なしグループ化ありグループ化ありグループ化なし：32% / グループ化あり：31%

各スコアリング手法特徴

特定のスコアをベースにスコア併合を行う • 全文検索スコアをベースと扱う • グループ化有無ともに併合を行う • グループ化なし静的スコアを考慮スコア併合式検討 • 各スコア単体ではランクへの影響が微小 • グループ化有無でスコアの特徴が正反対

検討後スコア併合式 • 併合スコア（p） = Wr×全文検索スコア（p）＋静的スコア（p）＋動的スコア（p） • 静的スコア（p） = Ws1×グループ化なし静的スコア（p）　　＋Ws2×グループ化あり静的スコア（p） • 動的スコア（p） = Wd1×動的スコア#1（p）＋Wd2×動的スコア#2（p）

(Wr, Ws1, Ws2, Wd1, Wd2) [ Rank ] Wr = {1, 2}, Wx = {0, 1, 2}, x∈{s1, s2, d1, d2} 動的スコアなし動的スコア#1 or #2 単体動的スコア併合適正重み係数調査結果 … … … …

+6% +180% vs. “tf-idf+PageRank”Weighted Reciprocal Rank

+6% +140% vs. “tf-idf+PageRank”11点平均適合率

提案手法考察グループ化 • 手法 • 各グループの粒度に格差 • 効果 • 静的スコアリング：ノード数減/リンク数減 • 動的スコアリング：ノード数減/リンク数増グループ化の有効性を確認グループ化手法については再検討が必要

提案手法考察静的スコアリング • グループ化適用によるスコアへの影響 • スコア適用先が変更 • グループ化なしスコアと異なる文書にスコアリング • スコアの平均化 • ランキングへの影響度が減少既存手法では抽出できない文書を抽出可能ランキングを大きく変動させることは不可能

提案手法考察動的スコアリング • 精度面で非常に劣る結果 • 不適合文書を多く抽出 • グループ化精度の影響 • 各スコアリングの特徴 • #1：既存手法と同様の文書に僅かな影響力 • #2：既存手法と異なる文書に大きな影響力グループ化手法検討後に再実験が必要

提案手法考察ランキング • 評価結果 • 動的スコアを併合しない算出式が最良結果 • グループ化精度の影響 • 既存手法に比べ6%程度の精度向上 • スコア併合式/適正重み係数 • 今回の実験では決定不可能提案手法による精度向上を確認

まとめ • グループ化によるランキング手法を提案 • 各提案手法の有効性を確認 • 提案手法による精度向上を確認 • 今後の課題 • グループ化手法の再検討 • スコア併合式/適正重み係数の検討

ありがとうございました

付録

100 53 50 50 9 50 3 3 3 PageRankアルゴリズム例

適用手順 H: 0 A: 0.408 H: 0.408 A: 0 H: 0 A: 0.816 H: 0.408 A: 0 Root H: 0 A: 0.408 H: 0.408 A: 0 HITSアルゴリズム例 • スコアリング Base

スコア併合式 • 併合スコア（p） = Wr×全文検索スコア（p）＋Ws×静的スコア（p）＋Wd×動的スコア（p） • 動的スコア（p） = Wd1×動的スコア#1（p）＋Wd2×動的スコア#2（p）

評価方式 • NTCIR-4 Web Task B 適合判定結果 • 多値適合レベル • 高適合，適合，部分適合，不適合の4レベル • 適合文書 • 高適合，適合，部分適合 • 不適合文書 • 不適合

処理時間

ディスク /メモリ使用量

各スコアリング評価Discounted Cumulative Gain

Web ページのグループ化による 静的動的スコアリング