1 / 30

ビッグデータから知をつむぐ 自然言語処理

東北大学電気・情報 東京フォーラム 2013 年 11 月 21 日. ビッグデータから知をつむぐ 自然言語処理. 乾 健太郎 東北大学 情報科学研究科 inui@ecei.tohoku.ac.jp. コミュニケーション. あらゆる社会活動の根幹. 最も 重要なメディア は 言語 (ことば). ソーシャルメディアの爆発的普及. http:// internet.watch.impress.co.jp /docs/event/itweek12/20120511_532162.html. 自然言語処理. 言葉がわかる賢いコンピュータを作る. 人工知能.

deacon-wong
Download Presentation

ビッグデータから知をつむぐ 自然言語処理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 東北大学電気・情報東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ自然言語処理 乾健太郎 東北大学情報科学研究科 inui@ecei.tohoku.ac.jp

  2. コミュニケーション あらゆる社会活動の根幹 最も重要なメディアは言語(ことば)

  3. ソーシャルメディアの爆発的普及 http://internet.watch.impress.co.jp/docs/event/itweek12/20120511_532162.html

  4. 自然言語処理 言葉がわかる賢いコンピュータを作る 人工知能 言葉(=自然言語)で伝達される情報を理解・検索・抽出・翻訳・整理・分析し、地球規模のコミュニケーションを支援するソフトウェア技術 自然言語処理

  5. 言語意味解析による情報の編集 信憑性分析 根拠検索 健康・危機管理 デマ検出 行動決定支援 情報リテラシー アプリケーション 言語解析 意味解析 リンク解析 大学・研究機関 政府・会社 解析・集約 知識獲得 情報検索 談話解析 国民 マスメディア ウェブ・SNS 情報・意見の整理・集約・可視化

  6. 東北大学自然言語処理研究室 VACANT VACANT 乾健太郎教授 岡崎直観 准教授 渡邉陽太郎 助教 松林優一郎 特任助教 水野淳太 (NICT研究員) 井之上直也 研究員 C. Kruengkrai研究員 スタッフ 研究生 博士 修士 学部 研究員募集中 研究スタッフ

  7. 東北大学自然言語処理研究室 2010年9月言語処理学会第16回年次大会 最優秀発表賞 2011年2月 CICLing-2011 Best Paper Award (First Place) 2011年3月言語処理学会 2010年度最優秀論文賞 2011年6月日本経済新聞社技術トレンド調査総合3位 2011年9月 NLP若手の会 第6回シンポジウム 奨励賞 2012年5月情報処理学会自然言語処理研究会 学生奨励賞 2012年9月情報処理学会 2012年度 山下記念研究賞 2012年9月言語処理学会第18回年次大会 優秀賞 2012年9月 NLP若手の会第7回シンポジウム 奨励賞 2013年3月東北大学情報科学研究科長賞 2013年3月情報処理学会第75回全国大会学生奨励賞 2013年3月情報処理学会第75回全国大会学生奨励賞 2013年3月情報処理学会東北支部学生奨励賞 2013年9月言語処理学会第19回年次大会 優秀賞

  8. ビッグデータと対話する自然言語処理 自然言語処理 話題① 知識の編集 知識の獲得 話題②

  9. ツイートデータの解析例① 福島の桃with NHK 2013.9.8 http://www.youtube.com/watch?v=RwIjlqDVNdg

  10. ツイート数の推移(肯定・否定別) 「福島産のモモを買うこと、食べること」に肯定的か否定的か 肯定側ツイート 否定側ツイート 福島の桃は市場に出ているものはしっかりと調べられているので安全です!何よりこんな笑顔が素敵なおじちゃんおばちゃんの愛がつまってるのでめちゃめちゃ美味しいです! 福島では山梨からトラックが桃を安値で買い占めに来ている。山梨産といっても安心はできない。

  11. リツイート RTネットワーク 否定的な意見が強い 肯定的な意見が強い • RTネットワーク上で2つのクラスタ(グループ)に分離 • 肯定・否定の推測結果に一致する • 反対の立場のツイートはあまりRTされない • 反対側のツイートは拡散させたいと思われない

  12. 肯定派・否定派はそれぞれムラを作っている両者の意見交換は少ない → 風評対策の難しさ

  13. ツイートデータの解析例② 参議院選挙with 朝日新聞(2013年7月3日, 22日,26日朝日新聞掲載)

  14. 参議院選挙のツイート分析( 2013年7月3日 朝日新聞掲載) 分析内容 政策・政党名でツイートを検索し,日々のツイート数,関連語を分析 知見 ツイート総数が衆院選前と比べ3割減(参院選への関心低い) 共産党に関するツイートが増加 維新の会のツイートは激減 ネット選挙に関連して,未成年のリツイート問題が話題に 原発を含むツイートが依然多い

  15. 世の中の関心を自動的に掘り起こす(2013年7月26日 朝日新聞掲載) 分析内容         記者のフィルターを介さずに,ツイートから社会の論点・関心を抽出 結果と課題 • 「児童ポルノ禁止法改正案」「Jリーグの2ステージ制」など,新聞が取り上げていない話題を抽出 • 分析結果がそのまま新聞記事に掲載された • 賛否を分離して数を出すことは出来なかった

  16. 信頼できる情報を見分けるための支援 情報の「背景」の可視化

  17. 言論マップ 質問 イソジンで被曝を防げる? 肯定 被曝を軽減するにはイゾジンがいい 否定 イソジンは被曝対策には使えません

  18. 平時の一般のトピックでも

  19. 同意・対立・根拠の認識 事実性(モダリティ)解析+構造的アライメント+関係パターン認識 Collagen has beautiful skin effects. コラーゲンには美肌効果がある 対立意見の根拠evidence of opposing opinion +存在+ existence 美肌=肌を美しくするbeautiful skin = to beautify skin 肌を美しくするto beautify skin 対立conflict − 存在− existence 美しい→きれいbeautiful→pretty コラーゲンをサプリメントで飲んでも、Even when taken as a supplement, 途中でアミノ酸に分解されてしまうので、 (collagen) ends up broken down into amino acids so, 根拠evidence 肌をきれいにする効果は期待できません。we cannot expect (collagen) to be effective at making skin pretty. (Φが)

  20. 賛否によるネット情報の自動分析は世界初 言語処理学会最優秀発表賞(2010) 言語処理学会若手奨励賞(2010) CICLing Best Paper Award(2011) 日経新聞技術トレンド調査総合3位(2011) 情報処理学会山下記念研究賞(2012)

  21. ウェブの情報の流れを変える 論理的な言論空間 訂正情報 対立 発信 デマ 批判 賛成 まとめ ハイパーリンク 訂正情報 デマ ハイパーリンク _____ ② _____ ③ _____ _____ ④ _____ ① _____ _____ ① _____ _____ 現在の Web空間 まとめ

  22. 「裏を取る」を支援 「ω-3脂肪酸はADHDの改善に有効」の対立ページ 深海魚油 ソフトカプセル あれ?ちがうのかぁ 健康食品データベース DHA.. [独立行政法人国立栄養研究所] 小児のADHDは血中DHAレベルの低さと関連があるが、 DHAは小児の注意欠陥多動性障害(ADHD)に対して、経口摂取で効果がないことが示唆されている。DHAを1日あたり345mg摂取しても改善はみられなかった... Deep sea Fish Oil Soft Capsules 魚油のオメガ3脂肪酸、頭を良くする効果ない=英研究 ○○社によって製造された深海魚油のソフトカプセルです。... 主な成分であるω-3脂肪酸は,血液のより良い循環を促進し,高コレステロールの改善,血栓の防止,高血圧の改善,心臓の健康維持をサポートします。また、双極性障害,ADHDの改善に有効です。 対立 [ロイター] 英国で行われた研究によると、魚油に含まれるオメガ3脂肪酸は、心臓の健康のためには良いが、脳の機能を高める効果はないという。ロンドン大学の研究者らが専門誌「アメリカン・ジャーナル・オブ・クリニカル... 「ω-3脂肪酸はADHDの改善に有効」の根拠ページ 生活習慣をサポートする 『オメガ3脂肪酸 (後編)』 根拠 [サプマートUSA] ... ADHD、統合失調症、アルツハイマー疾患のような精神・認知に関する疾患を患う人は、血中のオメガ3脂肪酸レベルが低い人が多いことから、このような精神・認知に関係する疾患に対し、オメガ3脂肪酸は有効性が期待できます。...

  23. その先の言語理解研究へ 「行間を読む」言語処理への挑戦

  24. 「行間を読む」 週末に母とやなぎに行ってみました。 私は評判のきつねうどんを頼んだのですが、期待通りの味に大満足。 うどんを食べるために うどん屋の名前 私はうどんを食べた うどんが美味しいと きつねうどんの やなぎで

  25. 庭に洗濯物を干す 雨が降る 目的 〈洗濯物を干す〉 〈洗濯物を乾かす〉 常識的な知識 条件 〈洗濯物が乾く〉 〈晴れ〉 「行間を読む」常識に基づく推論 乾・岡崎 研究室 庭に洗濯物を干したとたんに雨が降ってきた ガッカリ

  26. 大問題!膨大な知識をどうやって集めるか 言葉の理解に必要な知識 「洗濯物を干す」目的は「洗濯物を乾かす」こと 「洗濯物が乾く」条件は「晴れている」こと 「うどん」は,「レストラン(うどん屋)で食べる」 「(料理を)注文する」ことを「頼む」とも言う 「レストラン」では,「料理を注文」して,しばらくすると料理が「出て」きて,それを「食べる」

  27. 常識もビッグデータから集める 天気が良いので,洗濯物がよく乾く 最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままならず お天気は晴れマークが多かったから,洗濯物が乾く 湿度はなかったから,洗濯物が乾く 今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず 天気が良い(晴れる) → 洗濯物がよく乾く

  28. 「行間を読む」仮説推論 背景知識 「何かを食べる」には「飲食店に行って、それを注文」すればよい 「(店で)注文する」ことを「頼む」とも言う 「ある食べ物が評判」なら「それを食べたい」と思う 食べる(x, z)→ 飲食店(w) ∧ 行く(x, w) ∧ 注文する(x, z, w) = | H 仮説 B 背景知識 ∪ ③ 言語処理への応用: NLP若手の会 奨励賞 (2011) 注文する(x, z, w)→ 頼む(x, z, w) O 観測 評判(z)→ 食べる(x, z) 評判(z) ① 世界最速の推論エンジン 7分(US) → 3秒(東北大) 情報処理学会山下記念賞 (2012) 言語処理学会年次大会優秀賞 (2012) 評判だから食べに行った 食べる(x, z) きつねうどんを食べた ② 仮説の評価関数の学習(世界初) NLP若手の会 奨励賞 (2012) 自然言語処理研究会 学生奨励賞 (2012) IBIS 2012 Honorable Mention (2012) 仮説 飲食店(w) 注文する(x, z, w) 食べる目的で行った 「頼む」=やなぎで注文する y=w w=v やなぎ=飲食店 観測 私(x) ∧ やなぎ(y) ∧ 行く(x, y) ∧ きつねうどん(z) ∧ 頼む(x, z, v) ∧ 評判(z) 母とやなぎに行った。  評判のきつねうどんを頼んだ。

  29. (S1: A lot of traffic once used Folsom Dam Road. ) S2: Right now, the road is closed. S3: Most of the people who used the road every day are angry.

  30. まとめ

More Related