1 / 8

Data Clustering: A Review

Data Clustering: A Review. A.K. Jain, M.N. Murty, P.J. Flynn. ~ 5.10 A Comparison of Technique ~. 院生ゼミ ‘ 04 年 6 月 15 日(火曜日) 谷津 哲平. Techniques. 階層型. 分割型. Artifical Neural Network (ANN) Genetic Algorithm(GA) Simulated Annealing(SA) Tabu Search(TS).  決定論的で確率論的な検索技術のほとんどが“二乗エラー手法”を使用する.

asis
Download Presentation

Data Clustering: A Review

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Clustering: A Review A.K. Jain, M.N. Murty, P.J. Flynn ~5.10 A Comparison of Technique~ 院生ゼミ ‘04年6月15日(火曜日) 谷津 哲平

  2. Techniques 階層型 分割型 Artifical Neural Network (ANN) Genetic Algorithm(GA) Simulated Annealing(SA) Tabu Search(TS)  決定論的で確率論的な検索技術のほとんどが“二乗エラー手法”を使用する 階層型ほど多能でない

  3. Evolutional approaches 進化的アプローチ 「大域的な探索技術」「一つ以上の解決策で探索する」 他のアプローチ 「局所的な探索技術」「一つの解決策で探索する」 ANN, GA, SA, TS は様々な学習,制御のパラメータの選択に敏感 (難しい) 分野依存の知識  理論上,明白な 領域情報(domain knowledge)を使用しないので, これらの4つの方法はウィークメソッド[Rich 1983]である 進化的アプローチの特徴 評価関数が不連続であっても最適解を見つけられる

  4. Comparison 1パフォーマンス Presented in Mishra and Raghavan [1994] Randomized branch-and-bound (RBA)を提案 SA, GA, TS, Hybrid Search (HS) 1989との性能比較 ※ データセット200未満 結果 GA :1次元データにおいて良い SA : 遅いので魅力的でない TS : 最も性能が良い RBA : HS : 高い次元において良い

  5. Comparison 2計算速度 Presented in Al-Sultan and Khan [1996] k-means, SA, TS, GA での実験 ※ データセット200未満 結果 GA, SA, TS は品質が同等で,k-means より良いが,実行時間は k-means が最も効率的 GA : 速い SA : 遅い(TSより時間がかかる) TS : 中 k-means : 最も速い

  6. Comparison 3品質 Presented in Babu et al. [1997] stochastic connectionist approach (SCA)を提案 SAと k-meansとの標準のデータセットに関する性能比較 結果 SCA が SA, k-meansより品質(solution quality)が優れている  進化的アルゴリズムはデータサイズが1000以下で低い次元データのときに良い

  7. Comparison 4大きいデータセット Presented in Mao and Jain [1996] K-means, ANN, kohonen net は大きいデータセット, 他のアプローチは小さいデータセットで比較 結果 ANN, GA, TS, SA は学習,制御のパラメータを得ることが難しい 大きいデータセットでは時間がかかる k-means は局所的最適解に収束するが 他の手法を使うことで大きいデータセットにも使える

  8. 結論  実験に基づく研究で領域情報を併用すると 性能が向上することが明らかになった GA, SA, ANN, TS の領域情報を使うのは役立つ  しかし,球型の領域を作る傾向があり制約になる可能性がある  実際,クラスタベースの文献検索では階層型が分割型より良いことが観測された[Rasmussen 1992]

More Related