1 / 12

Data  Clustering:  A  Review

Data  Clustering:  A  Review. 4  Similarity  Measure   (類似性測定) 4 月 21 日(水) 発表者:藤井 丈明. クラスタの定義. 同特徴空間上から取り出されたパターン間の類似性測定が最も重要 パターン間の相違性    特徴空間上に定義された距離の指標 連続的なパターンに焦点. 特徴の測定基準. ユークリッド距離 ミンコフスキーの測定基準. *ミンコフスキーの測定基準の特別なケース( 2 次元の場合). ユークリッド距離の特徴. ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断.

Download Presentation

Data  Clustering:  A  Review

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Clustering: A ReviewData Clustering: A Review 4 Similarity Measure   (類似性測定) 4月21日(水) 発表者:藤井 丈明

  2. クラスタの定義 • 同特徴空間上から取り出されたパターン間の類似性測定が最も重要 • パターン間の相違性    特徴空間上に定義された距離の指標 • 連続的なパターンに焦点

  3. 特徴の測定基準 • ユークリッド距離 • ミンコフスキーの測定基準 *ミンコフスキーの測定基準の特別なケース(2次元の場合)

  4. ユークリッド距離の特徴 • ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断

  5. ミンコフスキーの測定基準の特徴 • ミンコフスキーの測定基準:欠点として、他を支配する最も大きくスケーリングされた特徴の傾向が挙げられる • 特徴の線形相関はマハラノビス距離によって歪める事が可能 解決 特徴の正規化

  6. マハラノビス距離 • マハラノビス距離 :異なった重りをそれらの変化に基づく異なった特徴に割り当て :共分散行列 :列ベクトル :列ベクトル

  7. パターンの近接手段 • 元のパターンセット  近接値のマトリクス • 近接手段の発展 ・様々な報告がされていった。(最近の例として、カウントに基づく連続した特徴と距離における、名目上の属性のためのメートル法の変更されたミンコフスキーの組み合わせ )

  8. パターンの表現 • 文字列構造、木構造を用いることでパターンの表現が可能。 • 様々な報告がされたが、結果的に劣っていた

  9. (1)mutual neighbor distance (MND) • 距離測定が考えられた。 • MND :文脈 類似性を測る関数 :Neighbor Number

  10. B A A (2)mutual neighbor distance (MND) C C B B A A A A D E F 図4 図5 AにとってBは最も近い BにとってAは最も近い BにとってCは2番目 CにとってBは1番目 よってAとBの方が類似 BとCの方が類似

  11. みにくいアヒルの子の定理(1) • 醜いアヒルの子と普通のアヒルの子、すなわち、白鳥の子とアヒルの子とは、似通った2羽のアヒルの子が似ているのと同じ程度に似ている 追加情報を使用しない場合、どんなパターンも等しく同様である

  12. みにくいアヒルの子の定理(2) 概念的なクラスタリングの場合、類似性は  が1セットの事前に定義された概念である関数と定義される。 図6により例証 *ユークリッド距離はA,B間の方が少ないが、BとCは同一円上であるため、BとCの方が類似している C B A 図6 *概念的な類似性測定は最も一般的な類似性測定。 実践的な問題はセクション5に続く。

More Related