インクリメンタル PageRank による重要 Web ページの効率的な収集戦略

インクリメンタルPageRankによる重要Webページの効率的な収集戦略インクリメンタルPageRankによる重要Webページの効率的な収集戦略東京大学山田雅信　田浦健次朗　近山隆

背景 • インターネットの爆発的な普及と情報の氾濫 • サーチエンジンによる情報検索の普及 • サーチエンジンのお仕事 1. クローラによるWebページの自動収集 2. 高速検索のための索引付け 3. 利便性向上のための検索結果のランク付け 4. ユーザインターフェースの提供

Overview • クローラにおける問題点 • 問題解決のための先行研究とその手法 • PageRankクローラ • 更なる改善を目指して・・・ • PageRankクローラの考察とインクリメンタルPageRankクローラの提案 • 実装と実験 • まとめ

従来の多くのクローラに見られる問題点 • Webページの重要度に基づくランク付けアルゴリズムの研究が盛んに行われている - 近年のサーチエンジンにおける検索精度の向上という事実 • 一方、クローラによるWebページの収集段階ではそのようなことはあまり考慮されていない • どのWebページも等しく扱い、等しく収集 e.g. 幅優先探索

問題点により生じる不利益 • クローラを取り巻く環境 • 時間的制限 • 定められた収集期間（約一ヶ月） • 物理的制限 • ネットワーク • ディスク • それらを浪費しつつ • 一生懸命ゴミ集め - せっかく収集しても検索に利用される可能性が低いページが存在 • 一方で重要なWebページの見落としも・・・ - 収集されないため検索対象にすらならない。誰にも気づいてもらえない全Webページの 30%程度のカバー率クローラの収集戦略が重要

PageRankを利用した収集戦略 • Efficient Crawling Through URL Ordering [J.Cho et al. 1998] • 収集段階でWebページの重要度を計算、重要度の高いものから優先的に収集 • 重要度の計算にPageRankを利用 • 実験内容： • それらを従来手法と比較、評価 • 収集における精度を重視

PageRank • 大規模リンク構造の利用 • リンク = 重みのある支持投票 • 投票結果の集計 = PageRank計算 • ブラウジングモデルの導入 • ユーザがWebページ閲覧の際の行動パターンを数値化 - 多くの場合はリンクを辿ってページを閲覧 - 時にはそれ以外の方法で閲覧 PageRank ≒ Webにおける客観的人気度 e.g. google

収集手法(1) - Webページの収集優先度 - step0 ：収集済み現段階で計算は完了しているとする：未収集 ID-List step1 その計算結果に基づき収集優先度を決定 Priority-List step2 優先度の高いものから順に収集する

収集手法(2) - Webページの収集 - ：収集済み：未収集 ID-List 追加 step4 リンク構造を拡張 step3 収集 Priority-List 収集したページからリンクを抽出するそのページが未知のものだったら新たにID-Listに追加する step2

step5 PageRankを再計算 step6 ID-List内の全ての要素に対して計算を施行、それを必要に応じ複数回施行収集手法(3) - PageRankにおける収集優先度の再計算 - ：収集済み：再計算中：未収集：たった今収集 ID-List step4 新たにページを収集したことによりリンク構造が拡張される

考察 - PageRank収集戦略の利点と問題点 - • 利点 • 幅優先探索やBackLink Countといった古典的手法に比べ、重要なWebページを優先的に収集することができる • 問題点 • 収集優先度計算のためのオーバヘッドが極めて大きい - PageRank計算はインクリメンタルなデータに向かない⇒実用的でないより低コストの計算方式が必要

インクリメンタルPageRankを提案 インクリメンタルPageRankへの導入 • 収集過程におけるリンク構造の拡張の大部分は、すでに保持しているリンク構造に比してごく小規模なもの e.g. １億ページからなるリンク構造に新たに１０００ページが追加された • リンク構造拡張にともなうPageRankの変化は全体からみれば微々たるもの • （それにも関わらず）全てのページで再計算を行うのは、あまりにも非効率 PageRank収集戦略の利点を保ったまま計算コストを削減したい

インクリメンタルPageRankのポリシー • ポリシー • リンク構造拡張にともなうPageRankの変化が比較的大きい部分のみ再計算を施行 - 当然そのことにより収集順序に誤差が生じるが、そのデメリットよりも計算コストの削減によるメリットのほうが大きい場合が多い • 重要なページを“First”に収集するのではなく“Fast”に収集 - 収集順序の誤差により収集が１０分遅れたなどというのはあまり問題とはならない。 - 一番恐ろしいのは重要なページが収集されずに収集期間を終えること

インクリメンタルPageRankにおける収集優先度の再計算インクリメンタルPageRankにおける収集優先度の再計算 step6 ：収集済み：再計算中拡張された周辺のみPageRankを再計算：未収集：たった今収集 ID-List step5 リンク構造を拡張する際にはどのように拡張されたかをチェックする step4 新たにページを収集したことによりリンク構造が拡張される

実験 - 擬似クローリング - • あらかじめ収集しておいたデータを利用 • リンクをもつページをランダムに選び出し、それをクローリングの起点として登録 • 各収集戦略によりクローリング - Priority-Listのソートは5000ページ毎 - Priority-Listが空になるか、あらかじめ指定したページ数を収集したら終了 - クローリングのログと結果を出力

収集戦略 • PageRank (PR) • Incremental PageRank (IPR) - OverallSort (OS) - Partial Sort (PS) • Value Ratio (VR) • Link Depth (LD) • Page Number (PN) • Back Link Count (BLC) - Overall Sort (OS) - Partial Sort (PS) • Breadth First Search (BFS)

収集優先度の計算速度比較 PageRankクローラに比べ圧倒的に低コスト! ページ収集におけるアイドル時間も有効利用!!

インクリメンタルPageRankにおけるもうひとつの選択 - Partial Sort - • Overall Sort - ある程度ページを収集した段階でPriority-Listをソートする - Priority-Listが膨大だとソートに時間がかかる • Partial Sort - インクリメンタルPageRankやBack Link Countにおいては新たにページを収集(リンク構造を拡張)したことにより収集優先度が上がるページが特定できる - Overall Sortに比べPriority-Listのサイズによる影響が小さい • そのようなページのみPriority-Listをソートする

ソート手法の速度比較 Partial Sortは頻繁にPriority-Listが更新されるとき性能が悪化ハイブリッド型の検討

重要ページの収集率 インクリメンタルPageRankが圧倒的に優れている Overall SortとPartial SortではPartial Sortの方が若干優れている

精度とコストのトレードオフ - 計算の打ち切り - • Value Ratio (VR) - 新たにforwardするPageRankとforwardされる側のページのPageRankの比がある閾値以下 • Link Depth (LD) - 起点からのリンクの深さがある閾値以上 • Page Number (PN) - 更新されたページ数がある閾値以上になったら計算を打ち切る

各計算打ち切り手法の精度比較 収集段階によっては精度に約1～2%程度の違いが見られる

まとめと今後の課題 • まとめ • インクリメンタルPageRankは幅優先探索よりも賢く、PageRankよりも高速な収集戦略 • 現実のように全Webページのうち数十パーセントしかクローリングできないよな状況で特に有効 • 課題 • 更なる効率化 • 実際のWWW空間での実験と実用化

インクリメンタル PageRank による重要 Web ページの効率的な収集戦略