1 / 8

研究概要

研究概要. リンク構造解析スコアリング 既存手法( PageRank アルゴリズム / HITS アルゴリズム) リンク構造上隣接関係を基にスコアリング( PageRank / HITS ) 「リンク行為=リンク先 Web ページの推薦」と定義( PageRank ) 「(検索結果集合)+( 1 クリック距離集合)」にスコアリング( HITS ) 既存手法問題点 PageRank: 「リンク行為=リンク先 Web ページの推薦」? 直接リンク不可能な場合が存在 HITS: アルゴリズム適用範囲=検索語句との関連性大?

Download Presentation

研究概要

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 研究概要 • リンク構造解析スコアリング • 既存手法(PageRankアルゴリズム / HITSアルゴリズム) • リンク構造上隣接関係を基にスコアリング(PageRank / HITS) • 「リンク行為=リンク先Webページの推薦」と定義(PageRank) • 「(検索結果集合)+(1クリック距離集合)」にスコアリング(HITS) • 既存手法問題点 • PageRank: 「リンク行為=リンク先Webページの推薦」? • 直接リンク不可能な場合が存在 • HITS: アルゴリズム適用範囲=検索語句との関連性大? • 1クリック距離集合は検索語句に無関係である場合が存在 • 提案手法 • リンク構造上隣接関係を拡張したスコアリング手法 リンク元 リンク不能 リンク先 リンク元の影響度が減衰 中継点

  2. 提案 1: グループ化 • 概要 • 類似情報を持つWebページ集合をグループ化(意味付与) • 類似情報: 「同一作成者/同一コンテンツ内」 • 同一グループ内のリンク構造を削除 • 処理 • ディレクトリ構造による木構造 • 葉(Webページ)を枝(ディレクトリ)と併合 • リンク構造の更新 リンク構造上隣接関係を拡張 Root Directory Web Page Group

  3. 提案 2: スコアリング • 静的スコアリング • 全文書集合に含まれるリンク構造を対象 • グループ化と併用 • 動的スコアリング • 全文検索結果集合に含まれるリンク構造を対象 • グループ化適用前後2種類のスコアを算出 • グループ化と併用 • ランキング(併合スコアリング) • 上記各スコア,全文検索スコアを併合 • 重み付け加算を採用 隣接関係拡張 / リンク数減少を図る 隣接関係拡張 / リンク数増加を図る スコア特性を活かす併合式を検討

  4. 実験 1: グループ化 • グループ化処理結果比較 • リンク構造解析スコア分布 グループあたりWebページ数 グループ化前後による ノード数 / リンク数 比較 手法別スコアリング結果比較

  5. 全文検索 静的(前) 静的(後) 動的(前) 動的(後) グループ化前 グループ化後 双方 未抽出 実験 2: スコアリング • 各スコアリング手法単体評価 • 適合文書抽出割合比較

  6. 全文検索 全文検索+PageRank 提案手法 (2,1,2,0,0) • スコア併合式 / 重み係数調査 • 検索精度評価比較 Score (p) = Wr・ Retrieval (p) + Wsn・ StaticN (p) + Wsg・ StaticG (p) + Wdn・ DynamicN (p) + Wdg・ DynamicG (p)

  7. 考察 • グループ化 • グループ間粒度に格差が発生 • 静的スコアリング • 検索可能課題の割合:グループ化前=61% / 後=13% • グループ化前後の併合により検索精度向上 • 動的スコアリング • 検索可能課題の割合:グループ化前=32% / 後=31% リンク構造解析スコアに影響 グループ化適用時のみ抽出可能な検索課題が存在 検索不可能課題が非常に多い

  8. まとめ / 今後の課題 • まとめ • 提案手法それぞれの有効性を確認 • 併合スコアによる検索精度向上を確認 • 今後の課題 • グループ化 • グループの粒度差解消に関する調査検討 • 各グループに付与された意味情報に関する調査検討 • 他グループ化手法の検討 • スコアリング • 各手法が有効に働くWebページ構成に関する調査検討 • スコア併合式に関する調査検討 • スコア算出コストの軽減案検討

More Related