1 / 36

類似度を用いた WWW のリンク構造の解析

類似度を用いた WWW のリンク構造の解析. 谷 研究室    栗原 伸行. 目標. WWW のリンク構造の解析を行い、 自分の求めているトピックを正確に探し出す。 HITS アルゴリズムの改善を提案し実験を行う。. 目次. HITS アルゴリズムの紹介 HITS アルゴリズムの改善点 ・類似値の導入 ・ Topic 値の導入 実験・考察. 目次. HITS アルゴリズムの紹介 HITS アルゴリズムの改善点 ・類似値の導入 ・ Topic 値の導入 実験・考察.

yuri
Download Presentation

類似度を用いた WWW のリンク構造の解析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行

  2. 目標 • WWWのリンク構造の解析を行い、 自分の求めているトピックを正確に探し出す。 HITSアルゴリズムの改善を提案し実験を行う。

  3. 目次 • HITSアルゴリズムの紹介 • HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 • 実験・考察

  4. 目次 • HITSアルゴリズムの紹介 • HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 • 実験・考察

  5. Hubs&Authorities Hubs Authorities

  6. The HITS algorithmの特徴 • J. Kleinberg. 1998 • 各Webコンテンツの内容に立ち入らず、 サイト間のリンク構造の解析のみで、 適切な情報を抽出する。 • 適切な情報・・・Hub、Authorityページ集合

  7. The HITS algorithm • root set の入力 • base set の作成 • Authority や Hub に重みをつける。

  8. The HITS algorithm • root set の入力 • base set の作成 • Authority や Hub に重みをつける。 R

  9. The HITS algorithm • root set の入力 • base set の作成 • Authority や Hub に重みをつける。 B R

  10. The HITS algorithm • root set の入力 • base set の作成 • Authority や Hub に重みをつける。 B R

  11. Updated of hubs and authority p1 authority weight : Xp hub weight :Yp (each page p∈V) Xp = ΣYq  ←authority weight increased Yq = ΣXp  ← hub weight increased q1 ・・・ Yq1 pn ・・・ Yqn qn Xpn=Yq1 + ・・・ + Yqn q→p q→p

  12. Updated of hubs and authority p1 authority weight : Xp hub weight :Yp (each page p∈V) Xp = ΣYq  ←authority weight increased Yq = ΣXp  ← hub weight increased Xp1 q1 ・・・ Xpn pn ・・・ qn Yq1=Xp1 + ・・・ + Xpn q→p q→p

  13. Update hubs and authority A : adjacency matrix (隣接行列) a11 a1n ・・・ 1 if page i points to page j 0 otherwise aij A= ・・・ ・・・ ann an1          1 0 1 1 0             2 0 0 1 1          3 0 0 0 1          4 0 0 0 0   1 3 A = 2 4

  14. Update hubs and authority 1  2   0 1 1 0   1 2  2   0 0 1 1   1 3  1   0 0 0 1   1 4  0   0 0 0 0   1 Hub authority Weight weight 1 3 = 2 4

  15. Update hubs and authority 1 3 1  0   0 0 0 0   2 2  2   1 0 0 0   2 3  4   1 1 0 0   1 4  3   0 1 1 0   0 = 2 4 HubWeight AuthorityWeight    0   0   0   0   1   61  19   6   2   1    136  42  13   4   1  108  33  10   3   1   … ← ← ← ←

  16. HITSアルゴリズムの問題点 • base set に本来のトピックとはまったく関係のないページが含まれており、そのページが密なリンク構造である場合、高いweightを与えてしまう。(topic drift 問題)

  17. 目次 • HITSアルゴリズムの紹介 • HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 • 実験・考察

  18. HITSアルゴリズムの改善着目点 • リンクを張っている、張られているページと内容があまりにも違うならば、weightを低くしても良いのではないか? →ページ間に類似値を導入 (Bharat et al, SIGIR’98) • 自分の探したいトピックがページ内に含まれているのならばweightを高くしても良いのではないか? →topic値を導入

  19. 目次 • HITSアルゴリズムの紹介 • HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 • 実験・考察

  20. 2つのサイトの類似値 • 各ページの索引語の抽出 • 索引語の重み付け • 各ページをベクトル空間で表記 • 各ベクトル間の類似値を求める

  21. 索引語の抽出 • 索引語 : その文書を特徴付けるための単語 • 索引語の抽出 : 各文書を形態素解析を行い                   動詞、名詞、英単語を抽出 今日 / は / 晴れ / です /。 / しかし / 、 / 明日 / は /晴れ / か / 雨 / か / わかり / ま / せん /。 今日は晴れです。 しかし、明日は晴れか雨かわかりません。

  22. 索引語の抽出 • 索引語 : その文書を特徴付けるための単語 • 索引語の抽出 : 各文書を形態素解析を行い                   動詞、名詞、英単語を抽出 今日 晴れ 。 明日 晴れ 雨 わかる 。 今日 / は / 晴れ / です /。 /しかし / 、 / 明日 / は /晴れ /か / 雨 / か / わかり / ま / せん /。

  23. 索引語の重み付け 今日 晴れ 。 明日 晴れ 雨 わかる 。 d11 : 1/6 × 2/1 = 1/3 d12 : 2/6 × 2/2 = 1/3 d13 : 1/6 × 2/1 = 1/3 d14 : 1/6 × 2/1 = 1/3 d15 : 1/6 × 2/1 = 1/3 W1 : 今日 W2 : 晴れ W3 : 明日 W4 : 雨 W5 : わかる D1 • D1…Dn : 対象となるサイト • TFij : 索引語頻度 W1…Wm : 抽出された索引語 IDFj : 文章頻度の逆数 dij : WiのDjにおける重み dij = TFij × IDFj

  24. 各ページをベクトル空間で表記 • 索引語の重みを要素としてベクトルで表現 d1j d11 : 1/3 d12 : 1/3 d13 : 1/3 d14 : 1/3 d15 : 1/3 1/3 1/3 1/3 1/3 1/3 d2j d1 = dj= ・・・ dmj D1 dj : ページDjにおけるベクトル表記 dij : 索引語wiのサイトDjにおける重み

  25. 各ベクトル間の類似値を求める • ベクトル間の類似度 : コサイン尺度 • cos(di,dj) = di・ dj / ||di|| ||dj||

  26. HITSアルゴリズムの改善 a11 a1n ・・・ aij 1 if page i points to page j 0 otherwise A= ・・・ ・・・ an1 ann a11 a1n ・・・ aij cos(di,dj) if page i points to page j 0 otherwise A= ・・・ ・・・ an1 ann

  27. 目次 • HITSアルゴリズムの紹介 • HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 • 実験・考察

  28. Topic値 • トピック値 : ページ内にトピックが含まれてい         るならば一定の値を与える。 • Topic(j) = 1 + cos(di,dj) 1 ifTopic ∈ dj otherwise a11 a1n ・・・ cos(di,dj)・Topic(j) if page i points to page j 0 otherwise aij A= ・・・ ・・・ an1 ann

  29. 目次 • HITSアルゴリズムの紹介 • HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 • 実験・考察

  30. 実験方法 1 • 1、HITS 2、類似値を用いたHITS 3、類似値+Topic値を用いたHITS • root set の収集方法 : 1つURLからリンクを たどり収集 • たどる方法 : 幅優先 • root set のサイズ : 100 • base setのサイズ : 1000~5000

  31. 実験方法 1 R B ・・・・・・・・・・ ・・・ ・・・・・・・・・・・・・・・・

  32. 実験プログラム概要 GetURL.class URL入力 Analysis.class 茶筌を使用 Similarity.class Jamaを使用 CalculateMatrix.class 各Weightの出力

  33. 実験結果 • http://math.nist.gov/javanumerics/jama/ • HITS • 類似値 • 類似値+トピック値 (対象とするトピック : Matrix) 1、 http://www.netlib.org/lapack/index.html 2、 http://www.netlib.org/linpack/readme 3、 http://www.mathworks.com/ 1、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/index.shtml 2、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/siteindex.shtml 3、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/search 1、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/index.shtml 2、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/siteindex.shtml 3、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/search

  34. 実験結果 • http://www.pure.cc/~winds/volleyball/sunflower/ • HITS • 類似値 • 類似値+トピック値 (対象とするトピック : 栗原恵) 1、 http://www.jva.or.jp/jva/schedule.html 2、 http://www.jva.or.jp/topics/index.html 3、 http://www.jva.or.jp/jva/index.html 1、 http://www.jva.or.jp/japan/motoko/20040127.html 2、 http://www.jva.or.jp/japan/motoko/20031224.html 3、 http://www.jva.or.jp/japan/motoko/20031210.html 1、 http://momocan1111.hp.infoseek.co.jp/megu/ 2、 http://momocan1111.hp.infoseek.co.jp/azusa/redrockets_members.html 3、 http://momocan1111.hp.infoseek.co.jp/megu/vleague.html

  35. 考察 • 幾つかのケースを除いて、今実験では目に見えた差を得ることが出来なかった。 ・WWWにおいてページの内容はリンク構造        だけで判断可能? ・類似度・トピック値においてそれぞれチュー   ニングを行うことで精度の向上が可能?

  36. 考察 • 文章検索の手法の有効性 • トピックの意味 • 索引語の抽出方法 • base setの作成方法

More Related