380 likes | 463 Views
データ圧縮の統計力学. NTT コミュニケーション科学基礎研究所 村山 立人 murayama@cslab.kecl.ntt.co.jp. 概要. 疎行列符号化 だいたいのアイデアは? ビリーフ プロパゲーション TAP の方法による直感的導出 符号化の統計力学 情報理論との整合性 ベイズ統計との整合性. 疎行列符号化. データ圧縮(可逆,歪なし). 冗長な N ビットのデータを M ビットに符号化する. M ビットの符号語から N ビットのデータを正確に復号する. 圧縮率(レート) R=M/N とデータの冗長度 p にはトレードオフの関係がある.
E N D
データ圧縮の統計力学 NTTコミュニケーション科学基礎研究所 村山 立人 murayama@cslab.kecl.ntt.co.jp
概要 • 疎行列符号化 • だいたいのアイデアは? • ビリーフ プロパゲーション • TAPの方法による直感的導出 • 符号化の統計力学 • 情報理論との整合性 • ベイズ統計との整合性
データ圧縮(可逆,歪なし) • 冗長なNビットのデータをMビットに符号化する. • Mビットの符号語からNビットのデータを正確に復号する. • 圧縮率(レート)R=M/Nとデータの冗長度pにはトレードオフの関係がある. • ベルヌイ系列に対するシャノン限界
疎行列符号化 • NビットのデータをMビットに線形圧縮する. • データ(情報)の系列 • 符号語(パリティ検査)の系列 • 行列AはM行N列で,各行K個,各列C個だけ1が存在する.他の要素はすべて0である.
トイ モデル(1) • 疎行列 • データ(情報)系列: • 符号語(検査)系列: • データの復号は?
トイ モデル(2) • M=3はN=4より小さいので,逆算は不可能. • 最初のビットが分かっていれば,逆算は可能. • 「シャノン限界」
検査ノード(1) • 局所システムの定義と記法
検査ノード(2) • 検査ノードのフロー
情報ノード(1) • 局所システムの定義と記法
情報ノード(2) • 情報ノードのフロー
周辺化 • 周辺事後確率の近似式
局所計算モデル • TAP方程式 • 事後確率の近似式
2値関数のパラメータ表示 • 情報ビットのパラメータ表示 • 検査ビットのパラメータ表示 • 事後確率のパラメータ表示
符号化条件 • パリティ検査 • 事前確率 • 有効磁場:
検査ノードのTAP方程式(1) • 検査ノードの方程式
検査ノードのTAP方程式(2) • [Technique] 周辺化の方法
検査ノードのTAP方程式(3) • 検査ノードの方程式(続き)
情報ノードのTAP方程式(1) • 情報ノードの方程式
情報ノードのTAP方程式(2) • [Technique] 線形化の方法
情報ノードのTAP方程式(3) • 情報ノードの方程式(続き)
TAP方程式のパラメータ表示(1) • 検査ビットのパラメータ表示 • 検査ノードのTAP方程式
TAP方程式のパラメータ表示(2) • 情報ビットのパラメータ表示 • 情報ノードのTAP方程式
周辺事後確率のパラメータ表示 • 周辺事後確率のパラメータ表示 • 周辺事後確率のパラメータ方程式
ビリーフ プロパゲーション • 初期化 • 逐次更新 • 周辺事後確率
MPM復号 • 周辺事後確率の最大化
統計力学(1) • 微視的状態の実現確率 • 巨視的状態の実現確率
統計力学(2) • 分配関数 • 検査ビット系列のインスタンスに依存 • 分配関数の大きい巨視的状態が実現
統計力学(3) • 自由エネルギー • 巨視的状態にだけ依存 • 自由エネルギーが小さい巨視的状態が実現する
レプリカ解析(1) • 自由エネルギー • 巨視的状態は関数のペアで特徴づけられる
レプリカ解析(2) • 鞍点方程式 • 強磁性解 • 常磁性解
レプリカ解析(3) • 強磁性解 • 常磁性解
レプリカ解析(4) • ある冗長度で突然,強磁性解と常磁性解の大小関係が交代する「相転移」が起こる. • 単一情報源符号化についてのシャノン限界
レプリカ解析(5) • MPM復号の性能は「秩序パラメータ」の共役変数で解析的に評価できる.
レプリカ法(6) • 強磁性相でのMPM復号 • 情報理論のシャノン限界 • 常磁性相でのMPM復号 • ベイズ統計の「コイン投げ」
データ圧縮の統計力学 • TAPの方法によるビリーフ プロパゲーション • レプリカ法による相転移の理論 • 情報理論との整合性 • ベイズ統計との整合性 • 学際的研究動向 • 相関データの分散符号化(ネットワーク情報理論) • 乱数系列の不可逆圧縮(レート・歪理論)