twitter n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションだPowerPoint Presentation
Download Presentation
今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションã

Loading in 2 Seconds...

play fullscreen
1 / 76

今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションだ- PowerPoint PPT Presentation


  • 176 Views
  • Uploaded on

今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションについて. 榊 剛史 @tksakaki     松尾 豊 @ymatsuo 東京大学 松尾研究室. 軽く自己紹介. 東京大学 松尾研究室 博士課程 1 年 株式会社 ホットリンク 特任研究員 以前は、東京電力で電柱昇ったりしてました。 Twitter 上で、よく教授と間違われます。 海外でも間違えられてた・・・・. ↑ウェブ学会のところ. ↑口コミ係長のところ. 今日のアジェンダ. Twitter で分かる「今」と「どこ」 地震抽出システムについて

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションã' - aloha


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
twitter

今そこにある呟きTwitterからのリアルタイムなイベント抽出及び応用アプリケーションについて今そこにある呟きTwitterからのリアルタイムなイベント抽出及び応用アプリケーションについて

榊 剛史 @tksakaki     松尾 豊 @ymatsuo

東京大学 松尾研究室

slide2
軽く自己紹介
  • 東京大学 松尾研究室 博士課程1年
  • 株式会社 ホットリンク 特任研究員
  • 以前は、東京電力で電柱昇ったりしてました。
  • Twitter上で、よく教授と間違われます。
    • 海外でも間違えられてた・・・・

↑ウェブ学会のところ

↑口コミ係長のところ

slide3
今日のアジェンダ
  • Twitterで分かる「今」と「どこ」
      • 地震抽出システムについて
  • リアルタイムイベント抽出の仕組み
      • キーワード検索とSVMによるイベント抽出
      • Particle Filter による位置推定
  • Twitter上でのリアルタイム情報伝播の特徴
      • イベント種類による情報伝播の特性
  • リアルタイムイベント抽出 応用システム
      • にじったー/Toretter
      • 電車遅延抽出/渋滞抽出
      • Celeb Paparazzi(仮)
slide4
本日のターゲット層
  • アカデミック層
  • ビジネス層

→アカデミック向けのマニアックな内容につ

いては、     がついてます。

基本的に発表中は飛ばします。

(時間配分によっては説明します)

slide5
今日のアジェンダ
  • Twitterで分かる「今」と「どこ」
      • 地震抽出システムについて
  • リアルタイムイベント抽出の仕組み
      • キーワード検索とSVMによるイベント抽出
      • Particle Filter による位置推定
  • Twitter上でのリアルタイム情報伝播の特徴
      • イベント種類による情報伝播の特性
  • リアルタイムイベント抽出 応用システム
      • にじったー/Toretter
      • 電車遅延抽出/渋滞抽出
      • Celeb Paparazzi(仮)
twitter1
Twitterにおける「今」と「どこ」
  • Twitterにおける「今」の重要性
    • ニュースサイト
    • ツイちぇき!!
    • Buzztter
    • TV見ながらTweet
    • フォロワーの行動監視
twitter2
Twitterにおける「今」と「どこ」
  • Twitterにおける「今」の重要性
    • ニュースサイト
    • ツイちぇき!!
    • Buzztter
    • TV見ながらTweet
    • フォロワーの行動監視

今何が起きているかが分かる

twitter3
Twitterにおける「今」と「どこ」
  • Twitterにおける「今」の重要性
    • ニュースサイト
    • ツイちぇき!!
    • Buzztter
    • TV見ながらTweet
    • フォロワーの行動監視

今何が起きているかが分かる

他人が何をしているかが分かる

twitter4
Twitterにおける「今」と「どこ」
  • Twitterにおける「今」と「どこ」の重要性
    • 地震の発生と震源地を知る
    • 天体現象を知る
      • ゲリラ豪雨
    • 朝の電車遅延情報
twitter5
Twitterにおける「今」と「どこ」
  • Twitterにおける「今」と「どこ」の重要性
    • 地震の発生と震源地を知る
    • 天体現象を知る
      • ゲリラ豪雨
    • 朝の電車遅延情報

リアルな世界で

「今」「どこで」何かが起きているのが分かる

twitter6
Twitterにおける「今」と「どこ」
  • 「今」と「どこ」を利用したアプリケーション
    • Torretter :地震検出システム
      • 時間的な近さから同じ地震であることを同定
      • Geolocation情報、ユーザーのプロフィールの場所情報を利用して、震源地を推定する(未実装)
    • Nijitter:虹検出システム
      • 時間的な近さとTweet数から虹が出ていることを同定
      • 位置情報をもとに、虹が出ていると思われる場所に虹を表示
  • 本日はこの仕組みについて説明
    • サンプル:地震
twitter7
Twitterにおける「今」と「どこ」
  • 「今」と「どこ」を利用したアプリケーション
    • Torretter :地震検出システム
      • 時間的な近さから同じ地震であることを同定
      • Geolocation情報、ユーザーのプロフィールの場所情報を利用して、震源地を推定する(未実装)
    • Nijitter:虹検出システム
      • 時間的な近さとTweet数から虹が出ていることを同定
      • 位置情報をもとに、虹が出ていると思われる場所に虹を表示
  • 本日はリアルタイムイベント抽出の仕組みについて説明
    • サンプル:地震
slide16
今日のアジェンダ
  • Twitterで分かる「今」と「どこ」
      • 地震抽出システムについて
  • リアルタイムイベント抽出の仕組み
      • キーワード検索とSVMによるイベント抽出
      • Particle Filter による位置推定
  • Twitter上でのリアルタイム情報伝播の特徴
      • イベント種類による情報伝播の特性
  • リアルタイムイベント抽出 応用システム
      • にじったー/Toretter
      • 電車遅延抽出/渋滞抽出
      • Celeb Paparazzi(仮)
slide17
アプローチ

「地震」「揺れた」を含むTweetから

地震直後に呟いたTweetのみを抽出

Twitterユーザーをセンサーと捉えて

地震検出・震源地推定

slide18
ポイント1

機械学習で

「地震」「揺れた」を含むTweetから

地震直後に呟いたTweetのみを抽出

slide19
ポイント1

□地震直後につぶやいた呟き

揺れた!

こえ~~

地震だ!!

地震!?

地震!

びびったー

□その他のつぶやいた呟き

今更、何故「鍋焼きうどん」買うの! こんなに沢山?!地震に供えて?

十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・?

slide20
ポイント1

□地震直後につぶやいた呟き

揺れた!

こえ~~

地震だ!!

地震!?

地震!

びびったー

□その他のつぶやいた呟き

今更、何故「鍋焼きうどん」買うの! こんなに沢山?!地震に供えて?

十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・?

slide21
ポイント1~説明

Tweet

Tweet

Tweet

Tweet

Twitter search API

検索

キーワードを

含む呟き

「地震」

「揺れた」

提案システム

Tweetクローラー

テキスト分析器

データベース

Mecab

SVM

slide22
ポイント1~説明

Tweet

Tweet

Tweet

Tweet

Twitter search API

検索

キーワードを

含む呟き

「地震」

「揺れた」

提案システム

Tweetクローラー

テキスト分析器

データベース

Mecab

SVM

slide23
ポイント1~説明

Tweet

Tweet

Tweet

Tweet

Twitter search API

検索

キーワードを

含む呟き

「地震」

「揺れた」

提案システム

Tweetクローラー

テキスト分析器

データベース

Mecab

SVM

slide24
ポイント1~説明

Tweet

Tweet

Tweet

Tweet

Support Vector

Machine

=機械学習の手法

Twitter search API

検索

キーワードを

含む呟き

「地震」

「揺れた」

提案システム

Tweetクローラー

テキスト分析器

データベース

Mecab

SVM

地震に関する呟きのみ抽出

slide25
ポイント1~詳細説明
  • ターゲットとするイベントに関するキーワードを含むTweetを抽出
    • 地震の場合
      • 「揺れた」「地震」
    • 虹の場合
      • 「虹」
  • 収集したTweetを正解と不正解に分類→ 学習データ
    • 例:
      • 「地震だ!!」 --正解
      • 「地震が多い国って、日本だけじゃないんだよな・・・」 --不正解
slide26
ポイント1~詳細説明
  • ターゲットイベント用Tweets分類器作成
    • 収集した学習データを利用
    • 学習手法:Support Vector Machine
  • 使用した特徴量(例文:やばい、地震きた!)
    • 統計量(3語、2番目)

Tweetsが全部で何語か?また、キーワードは何番目か?

    • キーワード( やばい、地震、くる)

Tweets中に含まれている全ての語

    • キーワード文脈情報(やばい、くる)

キーワードの前後に出現する語

slide27
アプローチ

「地震」「揺れた」を含むTweetから

地震直後に呟いたTweetのみを抽出

Twitterユーザーをセンサーと捉えて

地震検出・震源地推定

slide28
ポイント2

Twitterユーザーをセンサーと捉えて

地震検出・震源地推定

slide29
ポイント2~説明

Twitterからのイベント検出

センサーによるイベント検出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

・・・

・・・

・・・

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide30
ポイント2~説明

Twitterからのイベント検出

センサーによるイベント検出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

・・・

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide31
ポイント2~説明

センサーによるイベント検出

Twitterからのイベント検出

確率モデル

確率モデル

センサーの測定値

・・・

呟き分類器

・・・

・・・

tweets

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide32
ポイント2~説明

センサーによるイベント検出

Twitterからのイベント検出

地震に関する呟きを抽出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide33
ポイント2~説明

センサーによるイベント検出

Twitterからのイベント検出

地震を検出

地震に関する呟きを抽出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide34
ポイント2~説明

センサーによるイベント検出

Twitterからのイベント検出

地震を検出

地震センサーが地震を検出

地震に関する呟きを抽出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide35
ポイント2~説明

Twitterからのイベント検出

センサーによるイベント検出

地震を検出

地震センサーが地震を検出

地震に関する呟きを抽出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

slide36
ポイント2~説明

センサーによるイベント検出

Twitterからのイベント検出

地震を検出

地震を検出

地震センサーが地震に反応

地震に関する呟きを抽出

確率モデル

確率モデル

センサーの測定値

呟き分類器

tweets

・・・

・・・

ユーザーが「地震」について呟く

センサーによる観測

Twitterユーザーによる観測

ターゲット

オブジェクト

イベント発生

センサーによる観測と同じ確率的処理で検出可能

slide37
ポイント2~詳細説明
  • 実際には確率モデルを使用して検出
    • Twitterユーザーをセンサーを考えると、ノイズが多く、また誤検出もあり得る
    • 1つのTweetだけでは、イベントが起きたとは判定できない

→時系列的なセンサーの値から、イベント判定を行う

  • 2つの確率モデルを利用
    • 時系列データよりイベント検出を行う確率モデル
      • 指数関数にフィッティング
    • 一連の位置情報より位置推定を行う確率モデル
      • ベイズフィルタを使用
slide39
ポイント2~詳細説明~時系列モデル
  • 観測データを指数関数にフィッティング
  • ターゲットイベントの発生判定を、指数分布に基づいて確率的に算出
slide40
ポイント2~詳細説明~空間モデル
  • ターゲットイベントの発生場所の確率分布を算出
  • センサーによる位置推定に使われるベイズフィルタを利用
    • カルマンフィルタ
    • パーティクルフィルタ
slide41
ポイント2~詳細説明~空間モデル
  • カルマンフィルタ
    • ベイズフィルタとして最もよく使われている手法
    • 長所計算が速い
    • 短所適用対象が、高精度かつ計測間隔の短い
    •             センサーに限られてしまう
slide42
ポイント2~詳細説明~空間モデル
  • パーティクルフィルタ(粒子フィルタ)
    • 確率分布をparticle=粒子の集合でシミュレートする手法
    • 長所さまざまな確率分布に適用可能
    • 短所高次元なデータを用いた予測には適用できない
    •        (位置推定は2次元なので適用可能)
slide43
検出の精度

どのくらいの精度で検出できたのか?

slide44
地震自体の検出結果

期間: 2009年8月 – 2009年9月

収集したTweet数: 49,314tweets

利用したTweet数: 6291 tweets by 4218 users

震度3以上の地震を96%の精度で検出

slide45

Kyoto

Tokyo

予測震源地

(提案)

Osaka

実際の震源地

震源地予測結果

風船:呟きの位置

色:呟き時刻

slide46
台風の進路予測

実際の経路

予測経路

(Particle Filter)

slide47
問題点

地震検出の精度・位置推定の精度が

Twitterユーザーの多い地域>少ない地域

震源地が海だと予測できない

slide48
今日のアジェンダ
  • Twitterで分かる「今」と「どこ」
      • 地震抽出システムについて
  • リアルタイムイベント抽出の仕組み
      • キーワード検索とSVMによるイベント抽出
      • Particle Filter による位置推定
  • Twitter上でのリアルタイム情報伝播の特徴
      • イベント種類による情報伝播の特性
  • リアルタイムイベント抽出 応用システム
      • にじったー/Toretter
      • 電車遅延抽出/渋滞抽出
      • Celeb Paparazzi(仮)
twitter8
Twitter上でのイベント情報の伝播
  • 調査の発端
    • センサーによる観測手法

→センサー同士が影響しないことが前提

→ Twitterユーザー同士は影響を及ぼしてしまうのではないか?

  • 2種類のイベントについてネットワークの特徴量を比較
    • ユーザーの周囲で突発的に発生するイベント
      • 地震・台風
    • 学会/研究会イベント
twitter9
Twitter上でのイベント情報の伝播
  • 2種類の情報伝播ネットワークを定義
    • フォロワーネットワーク
    • Retweetネットワーク

ユーザーB

follow

ユーザーA

地震??

地震が起きたっぽい

地震??

大丈夫!? RT @user B: 地震??

follow

ユーザーB

ユーザーA

slide51
突発的に発生するイベントの情報伝播
  • フォロワーネットワークの密度:普通
  • Retweetネットワーク:中心性の高いユーザーがいない

フォロワーネットワーク 台風

Retweetネットワーク 台風

slide52
突発的に発生するイベントの情報伝播

フォロワーネットワーク v.s. Retweet ネットワーク

Rpagerank v.s. Rbetween

slide53
突発的に発生するイベントの情報伝播

フォロワーネットワーク v.s. Retweet ネットワーク

Rpagerank v.s. Rbetween

slide54
突発的に発生するイベントの情報伝播

フォロワーネットワーク v.s. Retweet ネットワーク

Rpagerank v.s. Rbetween

台風

地震

地震

slide55
学会/研究会イベントの情報伝播
  • フォロワーネットワークの密度が高い
  • RTネットワークの密度が高い

フォロワーネットワーク

ある研究会

Retweet ネットワーク

ある研究会

slide56
学会/研究会イベントの情報伝播

フォロワーネットワーク v.s. Retweet ネットワーク

ネットワーク密度

slide57
学会/研究会イベントの情報伝播

フォロワーネットワーク v.s. Retweet ネットワーク

ネットワーク密度

slide58
学会/研究会イベントの情報伝播

フォロワーネットワーク v.s. Retweet ネットワーク

ネットワーク密度

twitter10
Twitter上でのイベント情報の伝播
  • 学会/研究会イベント
    • 他のイベントと比べ、フォロワーネットワークの密度が高い
    • Retweetも発生しやすい

→ 情報伝播が発生しやすいイベント

  • 突発的なイベント(自然現象)
    • Retweetネットワークには中心性の高いユーザーはいない.

=ユーザーは突発的なイベントについてはあまりRetweetしない

→ 情報伝播が発生しにくいイベント

twitter11
Twitter上でのイベント情報の伝播

地震や台風については、センサー観測と同じ手法を適用可能

イベントの種類によって情報伝播の特徴が異なる

slide61
今日のアジェンダ
  • Twitterで分かる「今」と「どこ」
      • 地震抽出システムについて
  • リアルタイムイベント抽出の仕組み
      • キーワード検索とSVMによるイベント抽出
      • Particle Filter による位置推定
  • Twitter上でのリアルタイム情報伝播の特徴
      • イベント種類による情報伝播の特性
  • リアルタイムイベント抽出 応用システム
      • にじったー/Toretter
      • 電車遅延抽出/渋滞抽出
      • Celeb Paparazzi(仮)
celeb paparazzi1
芸能人を目撃せよ CelebPaparazzi(作成中)

今、新宿三丁目であの伝説の外人チャックウィルソン発見!

celeb paparazzi2
芸能人を目撃せよ CelebPaparazzi(作成中)

今、新宿三丁目であの伝説の外人チャックウィルソン発見!

いま伊集院光氏が秋葉原うろうろしてるみたいですよ^^接近遭遇のちゃちゃちゃチャンスですよ!w 。

celeb paparazzi3
芸能人を目撃せよ CelebPaparazzi(作成中)

今、新宿三丁目であの伝説の外人チャックウィルソン発見!

フジテレビ内のローソンでとんちゃんとフォンチーを見かけたよ。

いま伊集院光氏が秋葉原うろうろしてるみたいですよ^^接近遭遇のちゃちゃちゃチャンスですよ!w 。

celeb paparazzi4
芸能人を目撃せよ CelebPaparazzi(作成中)

今、新宿三丁目であの伝説の外人チャックウィルソン発見!

フジテレビ内のローソンでとんちゃんとフォンチーを見かけたよ。

いま伊集院光氏が秋葉原うろうろしてるみたいですよ^^接近遭遇のちゃちゃちゃチャンスですよ!w 。

明治通りで美川憲一に遭遇なう。めっちゃくねくねしてる。

celeb paparazzi5
芸能人を目撃せよ CelebPaparazzi(作成中)

今、新宿三丁目であの伝説の外人チャックウィルソン発見!

フジテレビ内のローソンでとんちゃんとフォンチーを見かけたよ。

楳図かずおさん見かけた@吉祥寺。 赤と白のボーダーすごい似合ってた。 。

いま伊集院光氏が秋葉原うろうろしてるみたいですよ^^接近遭遇のちゃちゃちゃチャンスですよ!w 。

明治通りで美川憲一に遭遇なう。めっちゃくねくねしてる。

8月31日の16:00~20:00の間のTweet

celeb paparazzi6
芸能人を目撃せよ CelebPaparazzi(作成中)
  • 実際の仕組み
    • 「発見」「遭遇」などを含むTweetを収集
    • 有名人の人名が含まれてるTweetを抽出
      • Wikipedia等から収集した人物名リストを使用
    • 地名情報・位置情報を取得

→ リアルタイムに芸能人目撃情報を表示

現状、1~2tweets/時間程度

(位置・地名情報が無いものはその2~3倍程度)

slide71
その他作りたいアプリ(計画&妄想)
  • 計画中
    • 電車遅延情報お知らせシステム
    • 渋滞情報表示システム
  • 妄想
    • なんでもイベント判別器作成システム
      • 正解データ/不正解データをユーザーがトゥギャる
      • イベント判別器を自動作成
    • 天体情報表示&写真収集システム
slide72
まとめ

高い精度でイベント検出可能

ある程度の位置推定も可能

イベントごとの情報伝播の違いを検証

様々なイベント抽出サイトを作成

他のリアルタイムなイベントに応用可能

例:電車遅延 etc

slide73

おしまい

@tksakaki

CM:Twitter口コミ伝播図作成サービスはホットリンクへ・・・・

slide75
位置情報推定の精度

地震

緯度・経度の最小2乗誤差

Particle filters works better than other methods

slide76
位置情報推定の精度

台風

緯度・経度の最小2乗誤差

Particle Filters works better than other methods