1 / 23

くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②. 喜田 拓也 北海道大学大学院情報科学研究科 コンピュータサイエンス専攻 准教授. 北海道大学大学院情報科学研究科公開講座. 2012/11/29. 本日の講義内容. 「情報」をデジタル化する 2進数について 2 進数からマルチメディアの表現へ 「情報」を小さく表現する データ圧縮技術について Lempe l-Ziv 法 「情報」を間違いなく届ける 誤り 訂正 技術について 水平垂直パリティ符号 私たちが研究していること アルゴリズムとは

alize
Download Presentation

くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. くらしの中の情報科学-ネットワークからナノテク・ゲノムまで-くらしの中のコンピューター・サイエンス②くらしの中の情報科学-ネットワークからナノテク・ゲノムまで-くらしの中のコンピューター・サイエンス② 喜田 拓也 北海道大学大学院情報科学研究科コンピュータサイエンス専攻 准教授 北海道大学大学院情報科学研究科公開講座 2012/11/29

  2. 本日の講義内容 • 「情報」をデジタル化する • 2進数について • 2進数からマルチメディアの表現へ • 「情報」を小さく表現する • データ圧縮技術について • Lempel-Ziv法 • 「情報」を間違いなく届ける • 誤り訂正技術について • 水平垂直パリティ符号 • 私たちが研究していること • アルゴリズムとは • 喜田の研究テーマについて

  3. 「情報」をデジタル化する コンピュータとは,電気回路がたくさん集まってできたもの 電気回路の中の電圧が高いか低いかだけを区別する じゃあ,どうやって「情報」を記憶したり通信したりできるの? (0と1の列で表現された) データ デジタル化 音楽 映像 文書

  4. 数を2進数で表す リンゴが5個 • コンピュータは二つの値しか区別できないので,2進法(2進数)を使って数を表現します 8の位 4の位 16の位 2の位 1の位 • 「数」とは,個数を抽象化した概念 • 私たちは通常,10進法による表現をつかう

  5. 音楽や映像を数の並びで表す 8 7 6 5 4 3 2 1 0 時間 7,7,8,2,1,5,5,… (250,191,142)(249,190,121)… 「数」の並び 万物は2進数で表現可能! 音楽 映像 文書

  6. 「情報」を小さく表現する 音楽 映像 文書 ムギュ~ (とりあえず)デジタル化されたデータ 圧縮 (上手に)小さく表現されたデータ 復元 データ圧縮

  7. データ圧縮技術について すもももももももものうち 12文字 Run-length法 (192ビット) す1も8の1う1ち1 5文字 数字5個 (100ビット) 繰り返しなど,冗長な表現を別の小さな表現に変えることでデータの量(0と1の個数;単位はビット)を削減できる!

  8. Lempel-Ziv法 「うそつききつつき」 谷川俊太郎   うそつききつつき きはつつかない うそをつきつき つきつつく うそつききつつき つつきにつつく みかづきつくろと つきつつく

  9. Lempel-Ziv法 「うそつききつつき」 谷川俊太郎   うそつききつつき きはつつかない うそをつきつき つきつつく うそつききつつき つつきにつつく みかづきつくろと つきつつく

  10. Lempel-Ziv法 「うそつききつつき」 谷川俊太郎  うそつききつつき きはつつかない うそをつきつき つきつつく うそつききつつき つつきにつつく みかづきつくろと つきつつく 矢印は,(何文字前から,何文字分コピー)で表せる

  11. 練習問題 でたでた つきが まるい まるい まんまるい ぼんのような つきが (5,1) (2,2) (3,1) (3,3) (5,3) (20,3)

  12. 「情報」を間違いなく届ける ハイ,アリス! 帰りに中華めんを買ってきてくれないか? 分かったわボブ.中華まんね. 2つでいい?

  13. オセロの手品 魔術師: オセロの盤面(8×8)に石を敷きつめる あなた: 好きな石を一つだけ裏返す 魔術師: 裏返した石がどこかを当てる

  14. 水平垂直パリティ符号 検査ビットの計算 (9, 4)水平垂直パリティ検査符号 (ただし,ここでは と計算する) 誤り訂正符号 どこが間違っているかを受信者側が訂正できるように,「余分な情報」を付け足して符号化(0,1で表現)する

  15. 誤り訂正符号について • より効率よい誤り訂正符号がいくつも提案されている • ハミング符号,巡回符号,BCH符号,RS符号,LDPC符号,・・・ • (7,4)ハミング符号: 4個の情報ビット に対し, のように検査ビット を作り, と符号化する • 誤り訂正符号の実用例: • 音楽CDや DVD • 2次元バーコード • 計算機のメモリー

  16. 小休止

  17. 私たちが研究していること • 我々の「情報知識ネットワーク研究室」では, • 情報検索や知識発見に関する基礎研究を行っています • 特に,高速なパターン照合やデータマイニングのためのアルゴリズムを開発しています • また,機械学習の方法や,その応用についても研究・開発を行っています

  18. アルゴリズムとは 計算手順 = アルゴリズム • コンピュータは,決まった命令(演算などの操作)しかできない • たくさんの命令を順番に並べて仕事をさせる • 効率よく仕事をさせるには,良い手順を与える必要がある • 以前は不可能とされた問題が,高速なアルゴリズムの出現で解決可能になることもある • 円周率を何億桁も計算する • 世界中のウェブページから,自分の名前を含むページをみつけだす • 今いるところから,到着地までの最短の経路をみつけだす • etc…

  19. アルゴリズムの重要性 『フカシギの数え方』 おねえさんといっしょ! みんなで数えてみよう!(JST ERATO湊離散構造処理系プロジェクト制作)

  20. ハードディスクやメモリの容量が十分に大きくなってきた今日,コンピュータを個人的に利用する範疇において「容量を減らすためにテキストデータを圧縮して保存する」ということはほとんどないでしょう. Windowsにはフォルダごとに圧縮をかけて容量を小さくする機能がありますが,私はこの機能を使ったことがありません.画像や音声データのようなマルチメディア・データならば圧縮して保存するのが当然ですが,テキストデータを圧縮することは百害あって一利なしと思われるでしょう.しかし,例えば大量のログファイルや過去のメールデータなどは削除せずに圧縮保存しておくほうが得策です. 01111000011110011111110101101000101010100111101000101110011010111101100011101111110100110101111100110100111001101100000111111010110101111111110000010100100101001 喜田の研究テーマについて 文書ファイル群 圧縮文書ファイル群 圧縮された状態のまま高速にキーワード検索! 中身がややこしい形になっている!

  21. 最新の研究成果:Re-pair-VF符号 よく知られたgzipという圧縮ツールよりも圧縮率が良い

  22. 新聞記事(reuters21578)上の検索速度

  23. まとめ • 本講義「くらしの中のコンピューター・サイエンス②」では, • 情報を「2進数へデータ化」する方法 • データをコンパクトに表現する「データ圧縮」 • データを誤りなく伝達するための「誤り訂正」  について学びました. • 効率よい計算をするためには,「アルゴリズム」が大事であることを学びました. • 喜田は,情報検索とデータ圧縮のアルゴリズムについて研究しています.

More Related