1 / 28

リンク構造解析によるページの 価値計算とネットワーク分析

リンク構造解析によるページの 価値計算とネットワーク分析. 知識システム構築論講座 林研究室 黄 林春. 発表の構成. 1 背景と目的 2 定義 3 アルゴリズム 4 分析方法と結果. 1 研究の背景と目的. 1.1  研究の背景 WWW の成長。 的確な情報入手の困難さ。 情報の移動経路や流通ルートの不明瞭さ。 1.2  目的 リンク構造を利用して、情報の分布や流通経路と、ネットワークの形態との関連性を探す 。. Authority Link. Hub Link. 2 概念と定義. リンクの重要性

Download Presentation

リンク構造解析によるページの 価値計算とネットワーク分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. リンク構造解析によるページの価値計算とネットワーク分析リンク構造解析によるページの価値計算とネットワーク分析 知識システム構築論講座 林研究室 黄 林春

  2. 発表の構成 1 背景と目的 2 定義 3 アルゴリズム 4 分析方法と結果

  3. 1 研究の背景と目的 1.1 研究の背景 • WWWの成長。 • 的確な情報入手の困難さ。 • 情報の移動経路や流通ルートの不明瞭さ。 1.2 目的 • リンク構造を利用して、情報の分布や流通経路と、ネットワークの形態との関連性を探す。

  4. Authority Link Hub Link 2概念と定義 • リンクの重要性 リンクの多さ =ページに関する価値の高さと仮定 ページのリンク価値=ページのリンク数(HubとAut) • リンクの分類 HubリンクとAuthorityリンク

  5. 3研究手法とアルゴリズム 3.1 ネットワーク分析の手順 ① ページ(HTMLファイル)及びリンクデータの収集 ② リンク構造の解析 ③ ページのリンク価値等,評価値の計算 ④ データのグラフ化、ネットワーク分析

  6. 3.2Webロボットの動作 • 探索開始ページのHTMLファイルを読み込み、リンクデータをリストに記憶する。 • リストからリンクデータを取り出し、リンク先のページを読み込み、リストに追加する。 • 設定条件が満たすまで②を繰り返す。

  7. Webロボットの並列分散処理環境の実現

  8. 4 結果と考察 4.1実験の項目 ① 実験の対象 • WWW(Java、Hp…12個) • 人工的ネットワーク(25個) ② 比較項目 • Hubリンク数(総・平均) • Autリンク数(総・平均) • ネットワーク開放度(後述)…

  9. (Java)のリンク数の分布表 分布図(Autリンクでソートした結果) 4.2 実験の結果 4.2.1Autリンク価値の高いページは、そのページのHubリンク価値も相対的に高い。

  10. 4.2.2 リンク価値の分布について ネットワーク区域ごとにリンク価値の平均値とパタンが大きく異なる

  11. ネットワーク 平均Hubリンク価値 平均Autリンク価値 Shino(個人サイト) 2.89 6.47 Java(Java言語サイト) 7.61 24.87 4.2.3 明確な目的を持って作ったページはそうでないページよりページのリンク価値が高い リンク数の比較(平均)

  12. ある個人のサイト あるJavaのサイト リンク数の比較(分布)

  13. 回収されないリンク Network 4.3 考察 4.3.1 ネットワークの開放度と開放型ネットワーク 探索できた範囲 ネットワーク開放度のイメージ

  14. 開放度の意義 • ネットワークの開放度が高ければ高いほど、情報や知識の交流も行いやすいと考えられる。 各ネットワークの開放度

  15. 4.3.2 人工的ネットワークとの比較 規則正しい(ρ=0) 中間的な領域(0<ρ<1) 無秩序(ρ=1)

  16. 実際のネットワーク 人工的ネットワーク 4.3.2 WWWと人工ネットワークとの比較 リンク価値 ↑ リンク価値 ↑ → ページ(探索順) → ページ(探索順)

  17. Start Point 平均Hub価値 最大Hub価値 倍率(最大/平均) HP 17.29 721 41.7 YY 22.07 1683 76.26 TEST 9.3 936 100.65 HUANG 5.85 829 141.71 極端にHubリンク価値が高いページの存在 4.3.3 リンク価値の高いページの分布状況 最大Hubリンク価値と平均価値との比較

  18. 4.3.4 まとめ • ネットワークの分類 ①高Hub価値、開放型ネットワーク。 実用的なページが多く含まれ、ページとページの間にもリンクが積極的に張られている。実用性と便利性とも高い。 ② 高Aut価値、開放型ネットワーク。 リンク集の多いページが多く含まれ、ページとページの間にもリンクが積極的に張られている。便利性の高いネットワーク。 ③ 高Hub価値、閉鎖型ネットワーク。 実用的なページが多く含まれてるが、ネットワーク外のページへのリンクが相対的に少ない。実用性高いが、便利性低い。 ④ 高Aut価値、閉鎖型ネットワーク。 ネットワーク内部ではリンクが多く張られているが、ネットワーク外のページへのリンクが相対的に少ない。実用性と便利性とも高くない。

  19. 5 課題 • 更なる各種のネットワークの分析 • リンクデータの収集におけるデータベース方式の導入 • 情報や知識の分布とネットワークを構成する主客観的要素との関係の定量的分析

  20. 以上です。

  21. 4.3.4実際への応用 • ページ価値の数値化計算 • ぺージ・ユーザーのグループ化 • 検索結果のランキング • ツールの転用

  22. 2.2Webページの価値とリンク価値 • ページの価値 • リンクの重要性 • ページの価値とリンク価値の関係

  23. 2.2Webページのリンク価値 • ページのリンク価値を次の式で表す。 V: リンク価値 Hub(Ln):Hub Link数、 Aut(La):Authority Link数

  24. 2.3 リンクに関する仮説 • ネットワーク世界においての人間の知識(価値観、趣味・嗜好を含む)はWebのリンク構造に強く依存して伝播する。 • 人間が自分の価値観(趣味・嗜好を含む)に合うリンクをWebページに追加することは、Web世界における知識の流通につながる。

  25. 3.3Hubリンクの解析

  26. 4 実験 4.1実験の流れ

  27. 4.4 (結果からの)Suggestion • ネットワークの形状はネットワーク内の個体(Webページ)の特徴の表れであり、主・客観的な要素によって、ネットワークの特徴が決められる。

More Related