240 likes | 401 Views
隠れマルコフモデルによる 時系列気象画像からの知識発見. 高知大学理学部数理情報科学科 本田研究室 B003G013N 勝吉進一. 春、秋. 冬. 夏. 背景. 近年、時間で変動するような画像が大量にデータベースへ蓄積されるようになってきた. 1週間の時系列気象画像. 時間空間変動パターン知識の抽出. 現象の理解,予測. 目的. 時系列画像データベースから時間空間変動パターンを抽出する手法を確立 自己組織化マップ( SOM) による画像系列を記号系列に変換 隠れマルコフモデルによるモデル化. 気象画像に対して適用し、その有用性を調べる.
E N D
隠れマルコフモデルによる時系列気象画像からの知識発見隠れマルコフモデルによる時系列気象画像からの知識発見 高知大学理学部数理情報科学科 本田研究室 B003G013N 勝吉進一
春、秋 冬 夏 背景 近年、時間で変動するような画像が大量にデータベースへ蓄積されるようになってきた 1週間の時系列気象画像 時間空間変動パターン知識の抽出 現象の理解,予測
目的 • 時系列画像データベースから時間空間変動パターンを抽出する手法を確立 • 自己組織化マップ(SOM)による画像系列を記号系列に変換 • 隠れマルコフモデルによるモデル化 気象画像に対して適用し、その有用性を調べる
HMM:隠れマルコフモデル • 確率的な状態遷移と確率的な記号出力を備えた計算機の数学的モデル:オートマトンの一種 Time flies like an arrow. 「光陰矢の如し」 「時蝿は矢を好む」 名詞,動詞,前置詞,冠詞,名詞 名詞,名詞,動詞,冠詞,名詞 品詞:状態,単語:出力記号 品詞という状態が隠れている・・・【隠れ】
画像系列→記号 季節など→状態 隠れマルコフモデル(推定問題) (1)Q={q1,・・・,qN}:状態の有限集合 (2)∑={o1,・・・,oM}:出力記号の有限集合 (3) A ={aij } :状態遷移確率分布 (4)B={bi(ot)} :記号出力確率分布 (5)π={πi} :初期状態確率分布 • 5項組M=(Q,∑,A,B,π) 推定問題 出力記号系列Oから、P(O|M)を最大にするようなモデルMを求める問題 [バウム・ウェルチアルゴリズム,EMアルゴリズム]
実験条件 使用する画像データ ・1997年~2000年の1月1日~12月31日の画像 ・気象衛星ひまわりによる日本上空の赤外画像(雲画像) ・高知大,菊地研究室でアーカイブ ・計1335枚(欠損あり) ・画像の記号系列の変換 クラスタ化・・・二段階ブロック化自己組織化マップ (KATAOKA1997)
クラスタリング結果 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 0,1,1,2,4,・・・・
実験 ・隠れマルコフモデルによるモデル化 ・バウム・ウェルチアルゴリズム,EMアルゴリズムによってパラメータ推定 ・入力記号系列:クラスタの記号系列を28日ごとにセグメント化[95個] ・状態数は2~8の変動パラメータとする。 モデルのパラメータの推定(状態遷移確率,記号出力確率,初期状態確率)
BIC(ベイズの情報量基準)による状態数選択 BICが小 →もっともらしい モデル BIC= ‐2(最大対数尤度)+dklogn (dk:モデルの自由度 n:出力記号数)
実験結果1 真冬 春、秋、梅雨 春、秋 夏、秋 盛夏
状態系列の復元 手法:ビタビ・アルゴリズム
まとめ、今後の課題 考察 ・ 自己組織化マップによるクラスタリングと、隠れマルコフモデルによって時間空間変動パターンに関する知識を抽出することができた。 ・ BIC(ベイスの情報基準)より、状態数が5,6のときがモデルに適していることが分かった。 課題 ・本研究のシステムを使い、他のもっと複雑な時系列画像においても適用して有用性を確認する。
システム概要 SOM クラスタリング 画像 学習 AIC,BIC EMアルゴリズム バウム・ウェルチアルゴリズム 知識発見 データ HMM パラメータ推定
モデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムをモデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムを 使用 隠れマルコフモデル 時系列気象画像のクラスタID 記号系列ABCを出力する状態遷移系列は? S1-S3-S2, S2-S1-S2, S2-S3-S2の3種類。それぞれの確率は、 0.8×0.2×0.5×1.0×0.4×0.5=0.016 0.2×0.5×0.1×0.8×0.5×0.5=0.002 0.2×0.5×0.5×1.0×0.4×0.5=0.01 よって隠れマルコフモデルがABCを出力する確率は三つの合計0.028となる 0.4 状態数2~8までにおいての最適なモデル 記号ABCを 出力する確率 状態遷移系列を 求めたい!! S2 0.2 0.5 0.3 最適な状態遷移系列 ビタビ・アルゴリズム 0.1 0.5 0.4 S1 0.8 S3 0.0 0.5 0.3
1 2 3 4 5 6 7 ・・・・・・・・・・・・・ 画像データの説明 ヒストグラムを用いた二段階SOM Step1:時系列気象画像をm×nに 分割する Step2:分割された画像を自己組織化 マップによって学習させる Step3:学習データのクラスタIDの ヒストグラムをつくる Step4:ヒストグラムを再び自己組織化 マップにかけ学習する Step5:学習データが集合し、クラスタ に分けられる SOM 時系列気象画像 SOM
実験 ・隠れマルコフモデルによるモデル化 EMアルゴリズムによってモデルのパラメータ推定 ☆学習データとなる記号系列が必要である。 今回本研究では、時系列気象画像のクラスタIDを97年から00年まで 1月1日~12月31日の順に並べ、記号系列とし、それぞれの年度は独 立させる学習データとし、さらに2週間(14日)と4週間(28日) に分け、2週間に対しては後半の一週間を次の系列の初めの一週間 となるようにする。(例:“13243433453213”→“34532133245671”) 同じように4週間に対しては後半の二週間を次の系列の初めの二週 間となるように反復させ、それぞれの14日、28日を独立させた 記号系列を学習データとした。この学習データにより、モデルのパ ラメータを推定した
AIC,BIC • AIC(赤池の情報量基準) BIC(ベイスの情報量基準) :情報量基準によるモデルの妥当性検証 AIC=‐2(最大対数尤度)+2dk* BIC= ‐2(最大対数尤度)+dk* *dk:フリーパラメータ=O(O‐1)+O(N-1)+O-1 O:状態数 N:記号数 n:モデルにかかわる出力記号の数 状態遷移確率の フリ―パラメータ 記号出力確率のフリー パラメータ 初期状態確率のフリーパラメータ
・隠れマルコフモデルにおいての最適な状態遷移系列を求めるアルゴリズム・隠れマルコフモデルにおいての最適な状態遷移系列を求めるアルゴリズム 状態遷移系列の復元(ビタビ・アルゴリズム) ビタビ・アルゴリズム S1→S2=0.5 S1→S3=0.5 S2→S1=0.1 S2→S2=0.4 S2→S3=0.5 初期状態 A B C 0.8 S1 S1 S1 最大の確率が得られた地点から太い矢印を逆向きにたどると S2→S3→S1 従って最適な状態遷移系列は S1→S3→S2となる 0.2 0.8 [0.16] [0.008] 0.2 S2 S2 S2 0.5 0.0 0.5 [0.1] [0.0] [0.016] S3 S3 S3 0.0 0.0 1.0 0.0 [0.0] [0.08]
0.25 0.0 実験結果1(学習データが28日の状態5のモデル) 0.85 0.94 0.9 状態6[0.17] 状態5[0.14] 状態1[0.2](春,秋) 0.09 0.02 0.02 状態3[0.19] 0.01 状態4[0.24] 状態2[0.7](盛夏) 0.01 0.03 0.95 0.91 0.87
謝辞 本卒業研究に際して, 数理情報科学科菊地時夫助教授には時系列気象画像データの提供を頂きました。ここで心からの感謝を申し上げたいと思います。ありがとうございました。