1 / 16

大容量データベースのデータマイニング手法 (積分型波形データの類似検索)

大容量データベースのデータマイニング手法 (積分型波形データの類似検索). 寶珍 輝尚 大阪府立大学 総合科学部 数理・情報科学科 ( 平成17年4月から 理学系研究科 情報数理科学専攻). 背景. 核融合科学の実験 膨大な量のデータが発生 膨大な数のデータが発生 効率の良いデータ管理が必要 類似データの発見 → 規則の発見(?). 目的. 類似波形の的確かつ迅速な検索. 対象データ Bolometer 計測データ   (放射熱量の計測)   積分型の波形. フーリエ変換を用いた検索方法.

gafna
Download Presentation

大容量データベースのデータマイニング手法 (積分型波形データの類似検索)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大容量データベースのデータマイニング手法(積分型波形データの類似検索)大容量データベースのデータマイニング手法(積分型波形データの類似検索) 寶珍 輝尚 大阪府立大学 総合科学部 数理・情報科学科 (平成17年4月から理学系研究科 情報数理科学専攻)

  2. 背景 • 核融合科学の実験 • 膨大な量のデータが発生 • 膨大な数のデータが発生 • 効率の良いデータ管理が必要 • 類似データの発見 → 規則の発見(?)

  3. 目的 類似波形の的確かつ迅速な検索 • 対象データ Bolometer計測データ   (放射熱量の計測)   積分型の波形

  4. フーリエ変換を用いた検索方法 Davood Rafiei,Alberto Mendelzon(1999) 1. フーリエ変換 2. 最初の係数k個を使用(2個目以降は複素数) 3.2k-1次元の点として多次元インデックス(R木)で管理 4. 距離計算:ユークリッド距離

  5. b g R3 d R1 f h a e R2 c Overlap R1R2R3 a b d c e f g h Oid data 多次元インデックスR木 10次元を超えると検索効率低下

  6. 問題点1 最初のk個(2k-1次元)の係数がほぼ同じでも 波形が異なるデータが存在 例)インデックス5次元、データ数1000 検索キー:No094 距離が最も近いデータ:No029

  7. 検索精度の改良 2段階の処理 ・1段階目:R木を使用(2k-1次元)        足切りに利用 ・2段階目:波形の類似度を判定        値の大きいm個の係数  を使用(最初の2k-1以外)

  8. 次元数(2k-1)の選定 計測データ1000個の係数の平均 k:2から4(2k-1:3,5,7)で 大まかな波形の類似度が判断可能

  9. mの選定 値の大きい係数の個数m:実験的に選定 ・k:2~4(2k-1:3,5,7) ・m:2,4,6,8 ・データ数:1000 ・検索キー:2個(波形が大きく異なる) ・類似データ:4個(あらかじめ選定) ・順位の平均で評価 (同距離のもの:同順位)

  10. mの選定 5次元インデックス(k=3)、m=4の時 最も精度が良い

  11. 検索例    ①No329  検索キー:No325    ②No332    ③No321

  12. 問題点2 • 周波数領域への変換法: キー波形の波長が支配的 • 多少異なる波長の波形も検索したい

  13. 近似 • 仮定 • g(t)=f(t/(1+α)) ただし、α<<1 • t=0 以前で 0 • t=t1以降で 0 • G(ω)≒F(ω)exp(- jαω t1) • G(ω):g(t)のフーリエ変換 • F(ω) :f(t)のフーリエ変換

  14. 原検索範囲 小領域 検索法 • 角度法 • 少しずつ角度を変化 • 貪欲法 • 最初は検索範囲を大きくし絞り込む • 対角法 • 対角のみ

  15. 評価 • 対象:1000個のボロメータ計測データ • 角度αの増加量を変化させて測定

  16. まとめ • 波形の高速類似検索(FFT利用) • 1段階目:R木による検索(5次元インデックス) • 2段階目:係数4個を使用(1段階目で使用の係数以外) • 波長の多少異なる波形も検索(近似) 今後の課題 • 他の積分型波形への適用 • 揺動型波形に対する検討

More Related