250 likes | 435 Views
データマイニングにおける クラスタリングの研究. 東北大学工学部情報工学科 徳山研究室 4年 鈴木 晶子. 研究の背景 ― データマイニング ―. データマイニング 巨大なデータベースから知識を抽出する技術 データマイニング技術の1つ⇒ クラスタリング. 膨大な量のデータから …. 役に立つ知識を発見 !!. クラスタリング. 入力されたデータを 「クラスタ」 に分割すること クラスタ データの部分集合 類似したパターンを持つデータのみが含まれる. 本研究で扱うクラスタリング. 数値属性をもつデータに対するクラスタリング d 個の属性をもつデータ
E N D
データマイニングにおけるクラスタリングの研究データマイニングにおけるクラスタリングの研究 東北大学工学部情報工学科 徳山研究室 4年 鈴木 晶子
研究の背景―データマイニング― • データマイニング • 巨大なデータベースから知識を抽出する技術 • データマイニング技術の1つ⇒クラスタリング 膨大な量のデータから… 役に立つ知識を発見!! 卒論発表会
クラスタリング • 入力されたデータを「クラスタ」に分割すること • クラスタ • データの部分集合 • 類似したパターンを持つデータのみが含まれる 卒論発表会
本研究で扱うクラスタリング • 数値属性をもつデータに対するクラスタリング • d 個の属性をもつデータ ⇒d 次元空間に存在する点 表. ある商店の売り上げ 売れた数 D F A G B E C 価格 卒論発表会
本研究の目的 • 大規模データを扱う2つのクラスタリングアルゴリズムを取り上げる • BIRCH [Zhang et al. 1996] • 全ての要素によって特徴づけられたクラスタを作る • DOC [Procopiuc et al. 2002] • 一部の要素のみによって特徴づけられたクラスタを作る • 実験を行い、各手法の特徴を明らかにする 卒論発表会
発表の流れ • BIRCHの紹介 • Clustering Feature(CF)とCF木 • アルゴリズム • DOCの紹介 • 最適なクラスタの定義 • アルゴリズム • 実験 • まとめ 卒論発表会
BIRCH [Zhang et al. 1996] • “Clustering Feature”という概念を用いて 階層木構造を作る 全てのデータ 集合 A∪B データの集合 A データの集合 B 卒論発表会
CF Clustering Feature (CF) • クラスタに含まれるデータの情報を要約したもの • d次元データ(d 次元実ベクトル) : N個のデータからなるクラスタ : • クラスタのCFベクトル • N : クラスタに含まれるデータの数 • : N個のデータの線形和 • SS : N個のデータの二乗和 卒論発表会
[CFA + CFB] [CFX + CFY] [CFA] [CFB] [CFX] [CFY] A B CF木 • 各ノードが“エントリー” を持った平衡木 • エントリー : CFベクトルによって表される • 各ノードのエントリー数には上限がある A∪B A B 卒論発表会
CF木の構築 • CF木は、初めは1つのノードしかない。 • 葉ノードに1つずつデータを挿入していくことにより、動的に木を構築する。 卒論発表会
[CF1] [CF2] [CF3] data CF木の構築方法 (1/2) 1つのデータ“data”を CF木に挿入するまでの過程 data • データを挿入する葉ノードを決定する • “data”とエントリーとの距離に基づき決定される • 辿り着いた葉のエントリーに“data”を挿入する • 既存のエントリーに挿入できない場合は新しいエントリーを追加 [CF1] [CF2] 卒論発表会
CF木の構築方法 (2/2) • ノードの持つエントリーが増えすぎた場合、木のバランシングを行う 以上の操作をデータが なくなるまで繰り返し、 CF木を構築 [CF1] [CF2] [CF3] [CF4] data [CF5] [CF6] 卒論発表会
BIRCHアルゴリズム データ Phase 1 : CF木を構築する CF木 Phase 2(optional) : CF木を縮小する Phase 3 : 大域的クラスタリング クラスタ Phase 4(optional) : クラスタを精錬する 卒論発表会
DOC [Procopiuc et al. 2002] • 射影を用いたクラスタリング • データを低次元の部分空間に射影 • その射影に対してクラスタリングを行う 卒論発表会
射影クラスタの定義 • 幅wの射影クラスタ : (C, D) • C : データの集合 • D : 座標軸の集合 • 集合C : クラスタに含まれるデータの集合 • 集合D : クラスタの幅がwに制限される座標軸の集合 : 集合Cの要素 : 集合Dの要素 卒論発表会
最適な射影クラスタの定義 • 射影クラスタの良さ : • |C|が大きいほど も大きい (⇒クラスタに含まれるデータ数が多いほど良いクラスタ) • |D|が大きいほど も大きい (⇒幅を制限する座標軸の数が多いほど良いクラスタ) • “最適なクラスタ” • 幅wをもつ射影クラスタのうち、良さ が最大となるもの しかし最適なクラスタを求めることはNP困難 ⇒ランダムアルゴリズムを用いて近似的に求める 卒論発表会
3 3 4 1 2 3 q1∈X p p q2∈X p p クラスタの 中心 p q3∈X x1軸方向の幅は2w x2軸方向の幅は∞ DOCアルゴリズム • データの中からランダムに1点 pを選ぶ • さらにデータの中からランダムに数点選び、集合Xとする • 点pと点q∈Xの射影について距離を測り、クラスタの形を決める • 全データをスキャンし、クラスタの中に入る点を求める • 2~4の操作を繰り返す • 点pを選びなおして、さらに2~4の操作を繰り返す • 最後に、クラスタの“良さ”が最大となるものを1つ出力する 卒論発表会
p DOCアルゴリズムの出力 • DOCアルゴリズムによって得られるクラスタ ⇒幅2wをもつクラスタ • 定理 DOCアルゴリズムは1/2より高い確率で、 最適なクラスタよりも“良さ”の値が大きい クラスタを出力する。 • 最適なクラスタより“良さ”が大きくなる例 • 最適なクラスタ に含まれる 点 p を中心としたクラスタ • 形は最適なクラスタと同じ • 最適なクラスタを全て含む 卒論発表会
アルゴリズムの計算時間 n : データ数, d : データの次元数 とすると、 全体の計算時間 : O(ndC+1) (ただし、Cは定数) 卒論発表会
実験 • 目的 BIRCH, DOCのクラスタリング精度を測定する • 方法 • 各アルゴリズムにデータセットを入力し、クラスタリングを行う • FastDOCでは、一度クラスタリングされた点を取り除くことにする ただしDOCアルゴリズムは時間がかかるため、 アルゴリズムを高速化させるヒュ―リスティクス FastDOCを用いた 卒論発表会
実験に用いたデータセット • 実験1 : 人工生成データを用いた実験 • データ数 : 100,000 • 次元数 : 10~200 • クラスタ数 : 5 • 20,000点 / 1クラスタ • 実験2 : 実際のデータを用いた実験 • アルファベットの発音に関する音声データ • データ数 : 6,238 ; 属性数 : 617; クラス数 : 26 卒論発表会
実験結果(実験1) • 人工生成データに対する実験結果 卒論発表会
実験結果(実験2) • 実際のデータに対する実験結果 • 音声データに対するクラスタリング精度 • FastDOCのほうが精度が低い原因 • データを射影することにより考慮する属性の数が減り、一部の情報が失われた • クラスタの幅が2wか∞かの2つしかないので、データセットを正確に分割できない • BIRCH : 53.6% • FastDOC : 30.7% 卒論発表会
まとめ • 2つのクラスタリングアルゴリズム • BIRCH : • DOC : • クラスタの数が多く、クラスタ1個あたりに含まれるデータの数が少ないデータセットには不向き • 今後の課題―アルゴリズムの改良― • パラメータの設定方法の検討 • BIRCHとDOCの融合 階層構造を用いた ボトムアップ的クラスタリング 射影を用いた トップダウン的クラスタリング 卒論発表会