160 likes | 327 Views
大容量データベースのデータマイニング手法 (積分型波形データの類似検索). 寶珍 輝尚 大阪府立大学 総合科学部 数理・情報科学科 ( 平成17年4月から 理学系研究科 情報数理科学専攻). 背景. 核融合科学の実験 膨大な量のデータが発生 膨大な数のデータが発生 効率の良いデータ管理が必要 類似データの発見 → 規則の発見(?). 目的. 類似波形の的確かつ迅速な検索. 対象データ Bolometer 計測データ (放射熱量の計測) 積分型の波形. フーリエ変換を用いた検索方法.
E N D
大容量データベースのデータマイニング手法(積分型波形データの類似検索)大容量データベースのデータマイニング手法(積分型波形データの類似検索) 寶珍 輝尚 大阪府立大学 総合科学部 数理・情報科学科 (平成17年4月から理学系研究科 情報数理科学専攻)
背景 • 核融合科学の実験 • 膨大な量のデータが発生 • 膨大な数のデータが発生 • 効率の良いデータ管理が必要 • 類似データの発見 → 規則の発見(?)
目的 類似波形の的確かつ迅速な検索 • 対象データ Bolometer計測データ (放射熱量の計測) 積分型の波形
フーリエ変換を用いた検索方法 Davood Rafiei,Alberto Mendelzon(1999) 1. フーリエ変換 2. 最初の係数k個を使用(2個目以降は複素数) 3.2k-1次元の点として多次元インデックス(R木)で管理 4. 距離計算:ユークリッド距離
b g R3 d R1 f h a e R2 c Overlap R1R2R3 a b d c e f g h Oid data 多次元インデックスR木 10次元を超えると検索効率低下
問題点1 最初のk個(2k-1次元)の係数がほぼ同じでも 波形が異なるデータが存在 例)インデックス5次元、データ数1000 検索キー:No094 距離が最も近いデータ:No029
検索精度の改良 2段階の処理 ・1段階目:R木を使用(2k-1次元) 足切りに利用 ・2段階目:波形の類似度を判定 値の大きいm個の係数 を使用(最初の2k-1以外)
次元数(2k-1)の選定 計測データ1000個の係数の平均 k:2から4(2k-1:3,5,7)で 大まかな波形の類似度が判断可能
mの選定 値の大きい係数の個数m:実験的に選定 ・k:2~4(2k-1:3,5,7) ・m:2,4,6,8 ・データ数:1000 ・検索キー:2個(波形が大きく異なる) ・類似データ:4個(あらかじめ選定) ・順位の平均で評価 (同距離のもの:同順位)
mの選定 5次元インデックス(k=3)、m=4の時 最も精度が良い
検索例 ①No329 検索キー:No325 ②No332 ③No321
問題点2 • 周波数領域への変換法: キー波形の波長が支配的 • 多少異なる波長の波形も検索したい
近似 • 仮定 • g(t)=f(t/(1+α)) ただし、α<<1 • t=0 以前で 0 • t=t1以降で 0 • G(ω)≒F(ω)exp(- jαω t1) • G(ω):g(t)のフーリエ変換 • F(ω) :f(t)のフーリエ変換
原検索範囲 小領域 検索法 • 角度法 • 少しずつ角度を変化 • 貪欲法 • 最初は検索範囲を大きくし絞り込む • 対角法 • 対角のみ
評価 • 対象:1000個のボロメータ計測データ • 角度αの増加量を変化させて測定
まとめ • 波形の高速類似検索(FFT利用) • 1段階目:R木による検索(5次元インデックス) • 2段階目:係数4個を使用(1段階目で使用の係数以外) • 波長の多少異なる波形も検索(近似) 今後の課題 • 他の積分型波形への適用 • 揺動型波形に対する検討