1 / 29

サーベイ: Blog 研究の現在 2005

サーベイ: Blog 研究の現在 2005. 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也. サーベイの目的. Blog 研究の動向 Blog をテーマとする論文( 2003 年以降) CiteSeer : 22 件( Blogs ) 11 件( Blogging ) CiNii : 18 件 Blog 研究は「研究」か? 書籍・解説・講演論文が大多数を占める 査読付き論文がほとんどない 手段としての Blog 扱いやすいデータセットとして Blog が使われている. サーベイの目的.

murray
Download Presentation

サーベイ: Blog 研究の現在 2005

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. サーベイ:Blog研究の現在 2005 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也

  2. サーベイの目的 • Blog研究の動向 • Blogをテーマとする論文(2003年以降) • CiteSeer:22件(Blogs)11件(Blogging) • CiNii:18件 • Blog研究は「研究」か? • 書籍・解説・講演論文が大多数を占める • 査読付き論文がほとんどない • 手段としてのBlog • 扱いやすいデータセットとしてBlogが使われている

  3. サーベイの目的 • 研究にとってのBlogの位置づけ,Blogにとっての研究の位置づけを明確にしたい • 各研究者がBlogをどう見ているかを知る • 今後のBlog研究の方向性を議論する • 話題提供 • Microformats

  4. サーベイ対象 • WWW2005 Second Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics (2005.5) • 発表件数:10 • http://www.blogpulse.com/www2005-workshop.html • 第19回人工知能学会全国大会 (2005.6) • 発表件数:7(総数280以上) • http://www-kasm.nii.ac.jp/jsai2005/schedule/ • WWW2005 Developers’ Day - Microformats • http://tantek.com/presentations/2005/05/what-are-microformats/ • その他

  5. Blog研究のトレンド(2004) • Weblogging Ecosystem WS Keynoteより • Blog Census Information(ブログ国勢調査) • Link Diffusion(リンク構造分析) • Ethnography・ Cultural Studies (民俗学とカルチュラル・スタディーズ) • クローリング戦略・カテゴライズ • スパム防止

  6. Weblogging Ecosystem 2004 • How can we measure the influence of the blogosphere? • Blog検索の方法論 • Automatic Collection and Monitoring of Japanese Weblogs • Web日記からのエントリー抽出 • Implicit Structure and the Dynamic of Blogspace • トピック・引用関係の時系列分析(パターンマッチング) • BlogPulse: Automated Trend Discovery for Weblogs • 機械学習・NLPによるトレンド分析 • Personal Knowledge Publishing Suite with Weblog • RSS・FOAFを用いた情報流通 • Mapping the Blogospere in America • Bloggerを地図上にマッピング • Blogs as “Protected Space” • インタビューによるBloggerの心理研究

  7. Blog研究のトレンド(2005) • 時系列分析 • リンク構造 • 個人とそのつながり • メタデータ • Bloggerの行動分析

  8. 時系列分析 • Blogのリアルタイム性を利用 • 「Instant Messaging to the Web」[Quan04] • ある瞬間のホットトピックを抽出することが目的 • キーワード抽出 • Blogger(個人)抽出

  9. 時系列分析 Discovering Important Bloggers Based on a Blog Thread Analysis [Nakajima(NICT)] • 引用関係・TrackBackからBlogエントリーの時系列スレッド構造を抽出 • スレッドの分析からAgitator・Summarizerとして機能している書き手を発見 • リンク数・スレッド内エントリー数の変化率・トピックの内容変化

  10. 時系列分析 Analyzing concerns of people using Weblog articles and real world temporal data [Fukuhara(NICT)] • Blogのエントリに含まれる単語の時系列的出現パターンの分類 • トピックに共起するサブトピックの変遷

  11. 時系列分析 Weblogにおける語の広がり方に基づいたキーワード抽出 [岡田(東京理大)] • 語の出現頻度が上昇傾向であるもの=ホットトピック • コメントがつきやすい語=ホットトピック Differences between Blogs and Web Diaries [Fujiki(東工大)] • BlogWatcher(バースト)を利用したホットトピックの抽出 • Blog・Web日記をデータセットとした場合の比較

  12. リンク構造分析 • Blog環境に特化したネットワーク分析手法の導入 • PageRankの限界 • リンクスパム • CMSによる大量のリンク生成 • 情報提供者・評価者としての「個人」 • 個人を評価するアルゴリズム • コミュニティ発見

  13. リンク構造分析 Extracting Latent Weblog Communities: A Partitioning Algorithm for Bipartite Graphs [Ishida(東京農大)] • 引用元(Blog)と引用先を分離し,2分グラフを構築 • ポータル向けにリンクが集中してしまう • 大量のアフィリエイトリンクなどにより,巨大な2分グラフができてしまう • 関連性が最も弱い要素をつなぐパス(WP)を作成し,そのパスのBetweennessを用いてクラスタリング

  14. リンク構造分析 The EigenRumor Algorithm for Ranking Blogs [Fujimura(NTT)] • Blog(個人が特定可能な世界)に適したランキング手法の提案 • コンテンツ間リンクを「情報提供者-コンテンツ」「情報評価者-コンテンツ」リンクに分割 • 情報提供者としての評価・情報評価者としての評価・コンテンツの評価を固有ベクトル法で計算

  15. 個人とそのつながり • Blogは「個人」を代表する • 複数のコンテンツをまとめる主体 • 読み手・書き手・編集者を兼ねる • Blogger同士のつながり→ソーシャルネットワーク • 個人の存在を考慮する手法には適用しやすい • 協調フィルタリング • アクセス制御

  16. 個人とそのつながり bloggerの嗜好を利用した協調フィルタリングによるWeb情報推薦システム[小原(東京電大)] • 1Blog=1ユーザとみなして協調フィルタリングを適用 • ニュースへのリンクの有無から計算 • コールドスタート問題を回避 実世界の社会ネットワークに基づく情報共有システム[森(東大)] • 抽出・構築された社会ネットワークを利用したアクセス制御

  17. メタデータ • Blogツール=メタデータ生成器 • 標準的なRSS以外のメタデータを付加したい • アプリケーションとともに設計 • 例 • 位置情報 • コンテキスト • 実世界でのコミュニケーションイベント

  18. メタデータ Learning Contextualised Weblog Topics [Avesani(IRST)] • Blogのエントリーをコンテキストごとに読みたい • 例:分散型アマゾンレビュー • 同一コンテキストをどのように判別するか • Tagを利用しても表記のゆれが残る • ローカルコンテキストを利用したカテゴリ名マッチング • Aさんの「Blog」とBさんの「Blogging」を統一 • Syntactic・Semantic・Inductiveな手法が必要

  19. メタデータ GIS & Blogosphere [Hurst(Intelliseek)] • BlogマイニングシステムとGISシステムをつなぐ • Livejournal・XangaからBlogを収集 • ユーザが半手動で位置を登録 • Livejournal:Givenの地名セット • Xanga:Metro(Tagのようなもの) • 地名のマッチング • 曖昧性が高い(複数候補にマッチする)

  20. メタデータ タグ付けされた場所に基づいたコミュニケーション支援[上松(横国大)] • ランドマーク・地名のFolksonomy • GPS携帯電話を用いることで絶対位置とのリンク付け ActionLog[沼(総研大)] • 実世界でのイベント情報メタデータ(タイトル・時刻)を利用したコンテンツ作成支援

  21. Bloggerの行動分析 • Blogがつくりだす人々の振るまいを分析 • ミクロ分析 • マクロ分析

  22. Bloggerの行動分析 • Weblogネットワークの特徴とユーザの行動に関する分析[古川(東京理科大)] • Blog間の関係と,書き手の閲覧行動との相関 • ブックマーク・コメント・TrackBack・定期的閲覧・内容的類似性 • 機械学習による決定木の作成 • 定期的に閲覧しているBloggerがまた閲覧しているものは,自分にとっても有用である • 内容的類似性は大きな影響を与えない

  23. Bloggerの行動分析 The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Glance(Intelliseek)] • アメリカ大統領選における右派・左派のBlogの記事の傾向を分析 • 同派内リンクは多く,派を越えるリンクは少ない • 同派内の記事の類似性は高く,派を越えると低い

  24. Blog研究の今後 • ここまでのまとめ • リアルタイム性 • 時系列分析 • 個人性・コミュニケーション性 • リンク構造 • 個人とそのつながり • インフラストラクチャー • メタデータ • 結果としての人の振る舞い • Bloggerの行動分析 • Blogは「情報を必要な人にできるだけ速く届けるためのメディア」 • SNS・その他ソーシャルウェアを含む

  25. Blog研究の今後 • 「情報を必要な人にできるだけ速く届けるためのメディア」の使用前・使用後 • 小さなWebではない • 工学系:どうやって実現するか • (メタ)データ • アプリケーション • セマンティックWebの出番? • 社会系:何が実現されたか • 書き手のモダリティ・振る舞い • 国際的な分析

  26. Microformats • XHTMLに付加するためのメタデータ・フレームワーク • 「小文字のセマンティックWeb」の一種 • 例:XFN(XHTML Friends Network) <a href=http://i2k.example.orgrel="friend met"> • Microformats Family • XFN • hCalendar:カレンダー・イベント情報(iCalendar) • hCard:アドレス帳(vCard) • hReview:レビュー • RelNoFollow:検索エンジンのリンク評価禁止

  27. Microformats • 用途ごとに仕様を決める • XMDP:XHTML Metadata Profiles • 語彙の説明 • コンテンツ本体への埋め込み • ネームスペースのようなもの <headprofile=“http://gmpg.org/xfn/11”> • メタデータ <a href=http://i2k.example.orgrel=“CC by-sa” rel=“nofollow”>

  28. Microformats • Less Syntax • XHTMLタグのアトリビュートのみ • class=“***” rel=“***” • Less Semantics • エージェントによる概念の自動発見は不可能 • そもそも既知の問題だけを対象としている • Application Dependent • Microformatsを認識できるアプリケーションがなければ意味がない(ただし害もない) • セマンティックWebも同じ • セマンティックWebへの道 • 相互運用性があればなんとかなる • リンクへのrel要素の付加はRDFのモデルと同じ? • まずはメタデータの絶対量が増えることが重要

  29. まとめ • Blog研究の現在 2005 • Web研究 != Blog研究 になりはじめてきた • コミュニケーションメディアとしてのBlog • 即時性 • 個人性 • コミュニケーション・インタラクション • コミュニティを支えるメタデータ • MicroformatsとセマンティックWeb • 恐れるに足らず(たぶん味方) • UI・UEが引き起こすインパクトは侮れない • Continue to「Blog研究の現在 2006」…

More Related