270 likes | 425 Views
隠れマルコフモデルによる時系列気象画像の時空間変動パターン表現. * 本田理恵、勝吉進一、小西修** *高知大学・数理情報科学 **はこだて未来大 2005 地球惑星関連合同学会 honda@is.kochi-u.ac.jp. 研究の背景. 地球惑星科学データ 観測、シミュレーションから膨大な時空間データが生成 効率的なパターン、規則性などの知識発見の方法が必要 従来の手法 可視化 →データが複雑、膨大になると困難に 時間、空間方向の情報圧縮 →未知のパターンの見落とし . 気象衛星画像 ( Kitamoto, 国立情報研究所).
E N D
隠れマルコフモデルによる時系列気象画像の時空間変動パターン表現隠れマルコフモデルによる時系列気象画像の時空間変動パターン表現 *本田理恵、勝吉進一、小西修** *高知大学・数理情報科学 **はこだて未来大 2005 地球惑星関連合同学会 honda@is.kochi-u.ac.jp
研究の背景 • 地球惑星科学データ • 観測、シミュレーションから膨大な時空間データが生成 • 効率的なパターン、規則性などの知識発見の方法が必要 • 従来の手法 • 可視化 →データが複雑、膨大になると困難に • 時間、空間方向の情報圧縮 →未知のパターンの見落とし 気象衛星画像 (Kitamoto, 国立情報研究所) マントル対流 シミュレーション (Iwase 2001)
目的 • 時系列画像からの時空間変動パターン抽出に機械学習、データマイニング手法の利用 • ビデオの解析手法を適用 • 自己組織化マップ(SOM)によるクラスタリング • 隠れマルコフモデル(HMM)による時間変動モデリング • 両者の組み合わせによる時空間クラスタリング • ひまわりの時系列気象画像に適用し、有用性を評価
st-1 st st+1 隠された状態 記号 記号 ot-1 ot-1 ot ot ot+1 ot+1 0.4 A 0.2 状態の有限集合 状態の有限集合 状態遷移確率分布 0.5 0.1 0.5 0.4 0.3 0.5 記号出力確率分布 B 0.8 C 0.0 出力記号の有限集合 出力記号の有限集合 0.1 0.3 初期状態確率分布 状態数 状態数 信号の場合の数 信号の場合の数 隠れマルコフモデルHidden Markov Model(HMM) • 確率的な状態遷移と記号出力を備えた数学的モデル • 音声認識などの分野で広く利用
クラスタリング ラベリング 画像ラベルの系列 1 2 3 4 5 733231・・・・ 6 7 ・・・ 2段階自己組織化マップ(SOM) (片岡、小西1997, Honda et al. 2001) 状態系列の復元 0.4 AABBBCC ・・・・ A 0.2 隠された状態の理解 (気象:季節などの 一定の気象期間) 0.5 0.1 0.5 0.4 0.3 0.5 B 0.8 C 0.0 0.1 0.3 HMMの結果をSOMマップに可 視化(時空間クラスタリング) 隠れマルコフモデル 手法の概略 空間パターンマイニング 時間パターンマイニング 7332321・・・・
データ • データ • 1997年1月1日~200年年12月31日の気象衛星ひまわりの日本上空の赤外画像(雲を反映)(東大生産研、高知大) • 640pixels x 480pixels • サンプリング間隔1日 • 計1335枚(欠損ふくむ) • ・画像の記号への変換 • クラスタリングとラベル付 • 2段階ブロック化自己組織化マップ(片岡・小西1997、Honda et.al. 2001) • 移動する物体を含む画像のグループ化が可能 • ブロックの特徴ベクトル • 64pixels x 64pixels の FFT パワースペクトラム
01124・・・・ SOMによるクラスタリングの結果 01 2345 67891011 121314151617 181920212223 242526272829 303132333435
HMM:モデル推定と状態系列の復元 • モデル推定 • Baum・Welchアルゴリズム+EMアルゴリズム(URL)によるパラメータ推定 • 状態数2-8の中で、情報量基準(BIC)を用いて最適な状態数とそのモデルを選択 • 14日,28日のセグメントに対して学習 • 状態系列の復元 • Viterbiアルゴリズム
HMMモデル学習と選択 • 最適な状態数の選択 • ベイズの情報量(BIC) BIC= ‐2(最大対数尤度)+dklogn (dk:モデルの自由度 n:出力記号数) 最適な状態数5
春、秋 初夏、初秋 (梅雨、秋雨前線) 真冬 復元された状態系列 冬、夏の 前後 盛夏 得られたモデル(状態数5)
真冬 5-20% 得られたモデル(状態数5) 春、秋 梅雨、秋雨前線 冬、夏の 前後 盛夏
まとめ • SOM,HMMにより時系列気象画像から時空間変動パターンを抽出した • HMMの状態をSOMに投影しなおすことにより、時空間クラスタリングを実現 • 従来の季節認識と若干異なる複数季節にわたる状態(5)と、鎖状の状態遷移モデルが得られた • 他の一般的な時空間データへの適用 • 厳密にはHMMのような統計的非正則問題に対してはBICの使用には問題があることが指摘 • モデル選択へのベイズ推定の適用
実験結果1(学習データが28日の状態5のモデル)実験結果1(学習データが28日の状態5のモデル) 状態1[0.2] 春、秋 状態4[0.24] 状態2[0.7] 状態5[0.14] 0.01 状態3[0.19] 状態6[0.17] 盛夏
システム概要 SOM クラスタリング 画像 学習 AIC,BIC EMアルゴリズム バウム・ウェルチアルゴリズム 知識発見 データ HMM パラメータ推定
モデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムをモデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムを 使用 隠れマルコフモデル 時系列気象画像のクラスタID 記号系列ABCを出力する状態遷移系列は? S1-S3-S2, S2-S1-S2, S2-S3-S2の3種類。それぞれの確率は、 0.8×0.2×0.5×1.0×0.4×0.5=0.016 0.2×0.5×0.1×0.8×0.5×0.5=0.002 0.2×0.5×0.5×1.0×0.4×0.5=0.01 よって隠れマルコフモデルがABCを出力する確率は三つの合計0.028となる 0.4 状態数2~8までにおいての最適なモデル 記号ABCを 出力する確率 状態遷移系列を 求めたい!! S2 0.2 0.5 0.3 最適な状態遷移系列 ビタビ・アルゴリズム 0.1 0.5 0.4 S1 0.8 S3 0.0 0.5 0.3
1 2 3 4 5 6 7 ・・・・・・・・・・・・・ 画像データの説明 ヒストグラムを用いた二段階SOM Step1:時系列気象画像をm×nに 分割する Step2:分割された画像を自己組織化 マップによって学習させる Step3:学習データのクラスタIDの ヒストグラムをつくる Step4:ヒストグラムを再び自己組織化 マップにかけ学習する Step5:学習データが集合し、クラスタ に分けられる SOM 時系列気象画像 SOM
AIC,BIC • AIC(赤池の情報量基準) BIC(ベイスの情報量基準) :情報量基準によるモデルの妥当性検証 AIC=‐2(最大対数尤度)+2dk* BIC= ‐2(最大対数尤度)+dk* *dk:フリーパラメータ=O(O‐1)+O(N-1)+O-1 O:状態数 N:記号数 n:モデルにかかわる出力記号の数 状態遷移確率の フリ―パラメータ 記号出力確率のフリー パラメータ 初期状態確率のフリーパラメータ
Viterbiアルゴリズム HMMで最適な状態遷移系列を求める 状態遷移系列の復元 S1→S2=0.5 S1→S3=0.5 S2→S1=0.1 S2→S2=0.4 S2→S3=0.5 初期状態 A B C 0.8 S1 S1 S1 最大の確率が得られた地点から太い矢印を逆向きにたどると S2→S3→S1 従って最適な状態遷移系列は S1→S3→S2となる 0.2 0.8 [0.16] [0.008] 0.2 S2 S2 S2 0.5 0.0 0.5 [0.1] [0.0] [0.016] S3 S3 S3 0.0 0.0 1.0 0.0 [0.0] [0.08]
実験結果1(学習データが28日の状態5のモデル)実験結果1(学習データが28日の状態5のモデル) 状態1[0.2](春,秋) 春、秋 状態2[0.7](盛夏) 状態4[0.24] 0.01 状態5[0.14] 状態3[0.19] 状態6[0.17] 盛夏
0.4 S2 0.2 0.5 0.3 0.1 0.5 0.4 S1 0.8 S3 0.0 0.5 0.3