1 / 76

今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションについて

今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションについて. 榊 剛史 @tksakaki     松尾 豊 @ymatsuo 東京大学 松尾研究室. 軽く自己紹介. 東京大学 松尾研究室 博士課程 1 年 株式会社 ホットリンク 特任研究員 以前は、東京電力で電柱昇ったりしてました。 Twitter 上で、よく教授と間違われます。 海外でも間違えられてた・・・・. ↑ウェブ学会のところ. ↑口コミ係長のところ. 今日のアジェンダ. Twitter で分かる「今」と「どこ」 地震抽出システムについて

aloha
Download Presentation

今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションについて

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 今そこにある呟きTwitterからのリアルタイムなイベント抽出及び応用アプリケーションについて今そこにある呟きTwitterからのリアルタイムなイベント抽出及び応用アプリケーションについて 榊 剛史 @tksakaki     松尾 豊 @ymatsuo 東京大学 松尾研究室

  2. 軽く自己紹介 • 東京大学 松尾研究室 博士課程1年 • 株式会社 ホットリンク 特任研究員 • 以前は、東京電力で電柱昇ったりしてました。 • Twitter上で、よく教授と間違われます。 • 海外でも間違えられてた・・・・ ↑ウェブ学会のところ ↑口コミ係長のところ

  3. 今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)

  4. 本日のターゲット層 • アカデミック層 • ビジネス層 →アカデミック向けのマニアックな内容につ いては、     がついてます。 基本的に発表中は飛ばします。 (時間配分によっては説明します)

  5. 今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)

  6. Twitterにおける「今」と「どこ」 • Twitterにおける「今」の重要性 • ニュースサイト • ツイちぇき!! • Buzztter • TV見ながらTweet • フォロワーの行動監視

  7. Twitterにおける「今」と「どこ」 • Twitterにおける「今」の重要性 • ニュースサイト • ツイちぇき!! • Buzztter • TV見ながらTweet • フォロワーの行動監視 今何が起きているかが分かる

  8. Twitterにおける「今」と「どこ」 • Twitterにおける「今」の重要性 • ニュースサイト • ツイちぇき!! • Buzztter • TV見ながらTweet • フォロワーの行動監視 今何が起きているかが分かる 他人が何をしているかが分かる

  9. Twitterにおける「今」と「どこ」 • Twitterにおける「今」と「どこ」の重要性 • 地震の発生と震源地を知る • 天体現象を知る • ゲリラ豪雨 • 虹 • 朝の電車遅延情報

  10. Twitterにおける「今」と「どこ」 • Twitterにおける「今」と「どこ」の重要性 • 地震の発生と震源地を知る • 天体現象を知る • ゲリラ豪雨 • 虹 • 朝の電車遅延情報 リアルな世界で 「今」「どこで」何かが起きているのが分かる

  11. Twitterにおける「今」と「どこ」 • 「今」と「どこ」を利用したアプリケーション • Torretter :地震検出システム • 時間的な近さから同じ地震であることを同定 • Geolocation情報、ユーザーのプロフィールの場所情報を利用して、震源地を推定する(未実装) • Nijitter:虹検出システム • 時間的な近さとTweet数から虹が出ていることを同定 • 位置情報をもとに、虹が出ていると思われる場所に虹を表示 • 本日はこの仕組みについて説明 • サンプル:地震

  12. 地震速報システム Toretter

  13. 地震速報システム Toretter

  14. 虹出現お知らせシステム Nijitter

  15. Twitterにおける「今」と「どこ」 • 「今」と「どこ」を利用したアプリケーション • Torretter :地震検出システム • 時間的な近さから同じ地震であることを同定 • Geolocation情報、ユーザーのプロフィールの場所情報を利用して、震源地を推定する(未実装) • Nijitter:虹検出システム • 時間的な近さとTweet数から虹が出ていることを同定 • 位置情報をもとに、虹が出ていると思われる場所に虹を表示 • 本日はリアルタイムイベント抽出の仕組みについて説明 • サンプル:地震

  16. 今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)

  17. アプローチ 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定

  18. ポイント1 機械学習で 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出

  19. ポイント1 □地震直後につぶやいた呟き 揺れた! こえ~~ 地震だ!! 地震!? 地震! びびったー □その他のつぶやいた呟き 今更、何故「鍋焼きうどん」買うの! こんなに沢山?!地震に供えて? 十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・?

  20. ポイント1 □地震直後につぶやいた呟き 揺れた! こえ~~ 地震だ!! 地震!? 地震! びびったー □その他のつぶやいた呟き 今更、何故「鍋焼きうどん」買うの! こんなに沢山?!地震に供えて? 十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・?

  21. ポイント1~説明 Tweet Tweet Tweet … Tweet Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM

  22. ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM

  23. ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM

  24. ポイント1~説明 Tweet Tweet Tweet … Tweet Support Vector Machine =機械学習の手法 Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM 地震に関する呟きのみ抽出

  25. ポイント1~詳細説明 • ターゲットとするイベントに関するキーワードを含むTweetを抽出 • 地震の場合 • 「揺れた」「地震」 • 虹の場合 • 「虹」 • 収集したTweetを正解と不正解に分類→ 学習データ • 例: • 「地震だ!!」 --正解 • 「地震が多い国って、日本だけじゃないんだよな・・・」 --不正解

  26. ポイント1~詳細説明 • ターゲットイベント用Tweets分類器作成 • 収集した学習データを利用 • 学習手法:Support Vector Machine • 使用した特徴量(例文:やばい、地震きた!) • 統計量(3語、2番目) Tweetsが全部で何語か?また、キーワードは何番目か? • キーワード( やばい、地震、くる) Tweets中に含まれている全ての語 • キーワード文脈情報(やばい、くる) キーワードの前後に出現する語

  27. アプローチ 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定

  28. ポイント2 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定

  29. ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ・・・ ・・・ ・・・ センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  30. ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ・・・ ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  31. ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 確率モデル 確率モデル センサーの測定値 ・・・ 呟き分類器 ・・・ ・・・ tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  32. ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  33. ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震を検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  34. ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震を検出 地震センサーが地震を検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  35. ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 地震を検出 地震センサーが地震を検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生

  36. ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震を検出 地震を検出 地震センサーが地震に反応 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生 センサーによる観測と同じ確率的処理で検出可能

  37. ポイント2~詳細説明 • 実際には確率モデルを使用して検出 • Twitterユーザーをセンサーを考えると、ノイズが多く、また誤検出もあり得る • 1つのTweetだけでは、イベントが起きたとは判定できない →時系列的なセンサーの値から、イベント判定を行う • 2つの確率モデルを利用 • 時系列データよりイベント検出を行う確率モデル • 指数関数にフィッティング • 一連の位置情報より位置推定を行う確率モデル • ベイズフィルタを使用

  38. ポイント2~詳細説明~時系列モデル

  39. ポイント2~詳細説明~時系列モデル • 観測データを指数関数にフィッティング • ターゲットイベントの発生判定を、指数分布に基づいて確率的に算出

  40. ポイント2~詳細説明~空間モデル • ターゲットイベントの発生場所の確率分布を算出 • センサーによる位置推定に使われるベイズフィルタを利用 • カルマンフィルタ • パーティクルフィルタ

  41. ポイント2~詳細説明~空間モデル • カルマンフィルタ • ベイズフィルタとして最もよく使われている手法 • 長所計算が速い • 短所適用対象が、高精度かつ計測間隔の短い •             センサーに限られてしまう

  42. ポイント2~詳細説明~空間モデル • パーティクルフィルタ(粒子フィルタ) • 確率分布をparticle=粒子の集合でシミュレートする手法 • 長所さまざまな確率分布に適用可能 • 短所高次元なデータを用いた予測には適用できない •        (位置推定は2次元なので適用可能)

  43. 検出の精度 どのくらいの精度で検出できたのか?

  44. 地震自体の検出結果 期間: 2009年8月 – 2009年9月 収集したTweet数: 49,314tweets 利用したTweet数: 6291 tweets by 4218 users 震度3以上の地震を96%の精度で検出

  45. Kyoto Tokyo 予測震源地 (提案) Osaka 実際の震源地 震源地予測結果 風船:呟きの位置 色:呟き時刻

  46. 台風の進路予測 実際の経路 予測経路 (Particle Filter)

  47. 問題点 地震検出の精度・位置推定の精度が Twitterユーザーの多い地域>少ない地域 震源地が海だと予測できない

  48. 今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)

  49. Twitter上でのイベント情報の伝播 • 調査の発端 • センサーによる観測手法 →センサー同士が影響しないことが前提 → Twitterユーザー同士は影響を及ぼしてしまうのではないか? • 2種類のイベントについてネットワークの特徴量を比較 • ユーザーの周囲で突発的に発生するイベント • 地震・台風 • 学会/研究会イベント

  50. Twitter上でのイベント情報の伝播 • 2種類の情報伝播ネットワークを定義 • フォロワーネットワーク • Retweetネットワーク ユーザーB follow ユーザーA 地震?? 地震が起きたっぽい 地震?? 大丈夫!? RT @user B: 地震?? follow ユーザーB ユーザーA

More Related