320 likes | 530 Views
ビッグデータとオープンデータ. メディアコミュニケーション論 Ⅲ 第14回. ビッグデータとは(1). 人が作り出している (ソーシャルデータ). 大量のデータのことであるが, 売上データ(日付と金額の組み)のような,“型が決まった”ものだけでない 動画 Twitter など センサー(位置情報,温度, … ) 多様なデータでもある. 機械が作り出している ( M2M-Machine To Machine ). ビッグデータとは(2). 大量・多様なデータで 発生速度が早い 次から 次へ と発生する. ビッグデータとは(3). 特徴
E N D
ビッグデータとオープンデータ メディアコミュニケーション論Ⅲ 第14回
ビッグデータとは(1) 人が作り出している (ソーシャルデータ) • 大量のデータのことであるが, • 売上データ(日付と金額の組み)のような,“型が決まった”ものだけでない • 動画 • Twitterなど • センサー(位置情報,温度,…) • 多様なデータでもある 機械が作り出している (M2M-Machine To Machine)
ビッグデータとは(2) • 大量・多様なデータで • 発生速度が早い • 次から次へと発生する
ビッグデータとは(3) • 特徴 • 大量のデータ(Volumue) • 多様なデータ(Variety) • 従来のデータベースでは管理が困難 • 発生速度が速い(Velocity)
ビッグデータの処理(従来) • 大量のデータをすべて処理する能力(コンピュータのパワー)がなかった • 一部だけを取り出して処理 • サンプリング • 処理に時間がかかる • 月末にバッチ処理
ビッグデータの処理(今では) • クラウドの利用 • 大量のデータを全件処理可能 • 迅速に処理可能 • 発生した情報を直ぐに処理し,その結果を活用できる データが“新鮮”な うちに,活用できる
ビッグデータは処理可能 • ビッグデータだから,“見えてくること” • 少ないデータからでは,分からないこと • 従来は処理できないデータ • あっても,“存在しない”データ • 新たなビジネス
具 体 例(1-1) • 販売データ • 顧客の様々な情報(年齢,性別,住所など)と購入した商品 • 次に何が売れるか? • 品揃えの充実・売上げ増加 • コンビニで生鮮食料品 • 顧客の詳細情報から,“売れる”と判断 ポイントカードの活用
具 体 例(1-2) • 販売データ • 自動販売機 • JR 東日本ウォータービジネス社http://itpro.nikkeibp.co.jp/article/COLUMN/20120123/379107/ • スイカや顔認識で顧客の属性を把握、自販機の品ぞろえや商品開発に生かす
具 体 例(2) • ソーシャルデータ • 自社製品を含むデータ(“つぶやき”) • 消費者の(個人)情報と結びつける • 分析することで,新製品の開発・既存製品の改良
具 体 例(3-1) • 検索キーワード • 特定のカテゴリーに属するものが増加 • “せき”,“熱”など • 何を意味するのか? • 風邪の流行
具 体 例(3-2) • Twitterでも同様 • ツイートに含まれる,“せき”,熱“など • 風邪の流行をTwitterで知る「カゼミル」がパワーアップ ツイート抽出精度向上http://www.itmedia.co.jp/news/articles/1111/16/news127.html • http://kazemiru.jp/
具 体 例(4-1) • リアルタイム人口 • いつ,どこに何人いるか • 時間帯(昼と夜) • 場所(住宅街とオフイス街) • 災害が発生した際,帰宅困難者を見積もることが可能
具 体 例(4-2) • モバイル空間統計に関する情報(NTTドコモ)http://www.nttdocomo.co.jp/corporate/disclosure/mobile_spatial_statistics/ • 基地局の管理エリア内の携帯電話の数が分かる • 人の数が分かる • 時間とともに,どのように変化するか分かる • 人の移動が分かる
具 体 例(5) • 犯罪対策 • 1日1億件,年間18テラバイトのカード利用データから不正使用を検知(IBM)http://www-06.ibm.com/innovation/jp/technologies/bigdata2/card.shtml
具 体 例(6) • カーナビからの走行データ • “通れた道マップ” • 震災後,どの道路が通行可能かどうか • 危険箇所の発見 • 急ブレーキが多発 • そこに何か原因がある • http://www.pref.saitama.lg.jp/site/room-seisaku/seisaku-025.html
具 体 例(7) • 天気予報 • ウェザーニューズ • 会員が,自分のいる場所の天気を報告 • 現在の状況から,予報を迅速に
具 体 例(8) • 医療情報 • カルテだけでない • 患者の諸々の情報 • 次の発病を防ぐ
具 体 例(9) • 遺伝子情報(DNA) • 究極の個人情報 • 1人の情報を完全に解析 • 多数の人の情報を収集 • 遺伝子情報から,将来発症する可能性が高い疾病が判明
自分で • 持っているものを使う • 従来は,使わなかった(使えなかった) • 新たに集める • センサー • Web2.0的な方法は?
買う(売る)(1) • NTTデータが国内全ツイート情報を再販、TwitterとのFirehose契約でhttp://internet.watch.impress.co.jp/docs/news/20121119_574028.html
買う(売る)(2) • 交通系ICカードのビッグデータ利活用による 駅エリアマーケティング情報提供サービスを開始http://www.hitachi.co.jp/New/cnews/month/2013/06/0627a.html • JR東日本と日立、Suica利用データを販売、懸念の声も(WIRED.jp)
オープンデータ(1) • 自由に使うことができるデータ • 注目されているのが,“行政機関がもつ大量のデータ” • 一般に公開(コンピュータで処理可能な形式) • 新たなビジネス
オープンデータ(2) • 電子行政オープンデータ戦略http://www.kantei.go.jp/jp/singi/it2/pdf/120704_gaiyou.pdf
ビッグデータの問題(1) • ビッグデータを活用するビジネス • データに欠損がある • データの使い方が分からない • 人材不足 • データサイエンティスト
ビッグデータの問題(2) • ビッグデータに含まれる個人情報の取扱い • DNAなどは,もっとも典型的な例
ビッグデータの問題(3) • 先のNTTドコモの場合 • http://www.nttdocomo.co.jp/corporate/technology/rd/tech/main/mobile_spatial_statistics/how_to_produce/ • モバイル空間統計では、運用データのうち電話番号の様な個人を識別できる情報を使用しません。また、生年月日を年齢層に変換するなど情報の要約を行います。この処理を「非識別化処理」と呼びます。 • 少人数エリアの数値を除去します。この処理を「秘匿処理」と呼びます。秘匿処理は、統計的に少数であることで個人を推測されやすくなる場合があり、これを防ぐために行います。 匿名化
ビッグデータの問題(4) • 単独のデータなら問題ない,としても • しかし,複数の(ビッグ)データを併せると,浮かび上がる情報もある • ビッグデータ活用の本質の一つ • 匿名化したはずなのに,個人が見えてくる可能性