1 / 41

クラスター分析

クラスター分析. 大阪大学人間科学部 行動計量学講座 B3 富田 華子. 1. クラスター分析とは. 異質なもの混ざり合っている対象(個体または変数)を、それらの間の何らかの意味で定義された類似度( similarity )を手がかりにして似たものを集め、幾つかの均質なものの集落(クラスター)に分類する方法の総称. 2. 非類似度. 値が小さいほど標本が類似していることを表すので、次のような距離を非類似度と呼ぶ。 各個体間にm変量の測定値{ i =1,…,n (= 個体数 ), j =1,…,m) が間隔尺度で得られる場合 1)ユークリッド平方距離.

addo
Download Presentation

クラスター分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. クラスター分析 大阪大学人間科学部 行動計量学講座 B3 富田 華子

  2. 1. クラスター分析とは • 異質なもの混ざり合っている対象(個体または変数)を、それらの間の何らかの意味で定義された類似度(similarity)を手がかりにして似たものを集め、幾つかの均質なものの集落(クラスター)に分類する方法の総称

  3. 2. 非類似度 • 値が小さいほど標本が類似していることを表すので、次のような距離を非類似度と呼ぶ。 • 各個体間にm変量の測定値{ i =1,…,n (=個体数), j =1,…,m)が間隔尺度で得られる場合 • 1)ユークリッド平方距離

  4. 2)重みつきユークリッド平方距離 :変量 j の重み (例えば :変量 j の分散

  5. 3)マハラノビスの汎距離 • 4)ミンコフスキー距離 :分散共分散行列( )の逆行列(j,k)の要素 (k=1のとき、city-block距離、k=2のときユークリッド距離)

  6. 3. 類似度 • 各個体間についてm変量の測定値が0-1型で得られる場合 • 個体 i と i’について各項目で0,1の出現率を調べて (=一致係数) (=類似比)

  7. この他にも様々な類似度・非類似度の評定値がある。この他にも様々な類似度・非類似度の評定値がある。 • ただし、類似度・非類似度は測定単位に直接影響される(普遍的ではない)。

  8. 4. クラスター分析の種類 • 階層的手法 • 距離の小さなものから同じクラスターにまとめあげ、デンドログラムを得る調べ方。 • 非階層的手法 • あらかじめいくつのクラスターに分けるか決定した上で、どの組み合わせがいいか調べる方法

  9. 4. 階層的手法 • 1)最短距離法(SLINK:single linkage clustering method) • ひとつでも特に近い対象を含むクラスターは次々と結合するので、長い帯状のクラスターができやすい。 • 密集した樹形図になりやすい。 • 類似度は間隔尺度ではなく順序尺度でよい

  10. 2)最長距離法(CLINK:complete linkage clustering method) • 最短距離法の逆の原理に基づく。 • 拡散した樹形図になりやすい。 • 類似度は間隔尺度ではなく順序尺度でよい

  11. 3)群平均法(UPGMA:unweighted pair-group method using arithmetic averages) • 前二つの中間の原理に基づく。 • 研究者にとって安全(極端でない)ので一般的に使われる。 • 歪みの少ない樹形図になる。

  12. 重心法 • クラスター間の距離を各クラスターの代表点の間の距離と定義する。この時、代表点を重心(centroid)あるいは平均ベクトルを使用することを重心法という。 • メディアン法 • クラスターの代表点をもとの二つの代表点の中点にとる方法をメディアン法という。

  13. ウォード法 • 結合させることで失われる情報量の最も小さなものからクラスターを形成するものをウォード法という。 • 実用的に優れた方法としてよく利用される。 • 前提とする入力データはユークリッド距離の2乗の1/2である。

  14. 5. 例(ウォード法) 表 1. 変数 x y サンプル 3 4 4 1 2 ① ② ③ ④ ⑤ 5 4 2 1 1

  15. 図 1.

  16. 表 2. サンプル間のユークリッド平方距離 サンプル ① ③ ② ④ ⑤ ① 2 ② 10 ③ 4 10 ④ 20 18 1 17 5 13 ⑤

  17. より 表 3. ① ② ③ ④,⑤ ① 2 2 ② ③ 10 4 18.25 15.25 7.25 ④,⑤

  18. 表 2. より にそれぞれ代入

  19. このようにして順次結合させていくと… ③ ①,② ④,⑤ ①,② ③ 6.5 7.25 16.25 ④,⑤ ④,⑤ ①,②,③ ①,②,③ ④,⑤ 11.856

  20.              平方距離    距離             平方距離    距離 • 1番目[④,⑤]1 1 • 2番目[①,②]2 1.414 • 3番目[①,②,③]8.667 2.994 • 4番目[①,②,③,④,⑤] 28.333 5.323

  21. 樹形図はこうなります 5.323 2.944 1.414 1.000 ④ ⑤ ① ② ③ 図 2.

  22. 非階層的手法 • 想定したクラスターの数だけ初期値を選定する。(対象をサンプリング) • 対象と初期値(代表値)との距離を測り、対象を適当なクラスターに配置する。 • 一度配置し終えたいくつか(または全て)の対象を他のクラスターに移すなどして「よりよい分割」(クラスター内のばらつきはより小さく、クラスター間のばらつきはより大きく)を目指す(reallocation)。

  23. 初期値の決定 • データ集合の最初の k 個のデータユニットを選ぶ。 • データユニットを1から m まで並べて、順に m/k,2m/k … ,(k-1)m/k,m 番目のデータを選ぶ。 • データ集合より k 個のデータユニットを主観的に選ぶ。 • データユニットを1から m まで並べ、1から m までの列の中で k 個の乱数に相当するデータユニットを選ぶ。

  24. データユニットのどんな分割でも良いから k 個の相互に排他的なグループに当てはめて種子点(初期値)としてグループ重心を計算する。 etc • →「これ」といった基準はない(?)・かなり主観的(?)

  25. 再配置法(k-means,Forgyの手法) • 初期代表値をクラスター分だけ決める。 • 各対象から代表値までの距離を計算し、一番距離の小さいクラスターに配置する。 • 全クラスターの配置が終われば、各クラスターの重心を新たに計算し直し(*固定型)、本当に各対象がそのクラスターのメンバーとして相応しいかを吟味(つまり、その対象から一番近くにあるクラスターの重心は本当に今所属しているクラスターのもので良いのかということ)。相応しくなければ相応しいところへ移す。

  26. (*固定型一つの個体をあるクラスターに融合した段階でその都度クラスターの代表値を計算しなおす(*固定型一つの個体をあるクラスターに融合した段階でその都度クラスターの代表値を計算しなおす •   浮動型 SPSSではオプションで「移動平均を使用」を選択→計算量大) • この操作を繰り返し、修正の必要がなくなったら終了

  27. 山登り法(hill-climbingalgorithm) • 初期代表値を決め、全クラスターをひとまず分割。 • 各対象について別のクラスターに移動してみて基準の値を計算し、最も改善されるクラスターに移動させる。 • 一定順序に全ての対象についてこの手順を繰り返し、基準の値が改善されなくなるまで繰り返す。 • (探索の成否、計算コストは)初期値に依存して、局所的な意味で分割が最適化(local optimization)するようなクラスターにしか到達できないおそれがある。

  28. 強制移動 • 初期代表値を決め、全クラスターを分割。 • クラスター内で重心から見て最も外側の対象から順に一番近い他のクラスターへ強制的に移動する。 • そのつどクラスターの重心を計算し直し基準の値を計算する。1つのクラスターを配置換えしている段階で、基準値が最適になったときの分割の状態に戻して、同じことを順に全てのクラスターについて行なう。

  29. 実際にはこれらの手法を組み合わせてやる • さっきの例で…表 1. 変数 x y サンプル 3 4 4 1 2 ① ② ③ ④ ⑤ 5 4 2 1 1

  30. 2つクラスターを作ることを目標とする。 • まず、①,②を種子点として選び出す。 • ①,②からのユークリッド平方距離を測る。 From ② From ① ① 0 2 ② 2 0 10 ③ 4 ④ 20 18 17 13 ⑤

  31. 新しい重心は • ①,②,③---3.667 3.667 ---①’ • ④,⑤------ 1.000 1.500 ---②’ From ②’ From ①’ ① 18.25 1.777 ② 0.222 13.25 2.889 ③ 7.25 ④ 8.892 0.25 7.225 0.25 ⑤

  32. 非階層的手法のグラフィカル表現 • SHADEの応用 • 正準変量解析 • もとの変数に間する数個の直交した1次関数を求める。求めた関数は判別した個体の同定と分類の問題で利用される。 • 検出されたクラスターがどの程度よく分離しているか、あるいは分離していないかが示される。

  33. 図 3. 服役者に関する正準変量プロット

  34. 分類距離地図(taxometric map) • Carmichael&Sneath(1969) によって提案された方法。分類結果を円または箱で表し、それらの相互関係を表現するのにそのような円や箱を直線で結ぶ。この直線の長さがクラスター間の距離を表している。

  35. 図 4. 分類距離地図

  36. 6. クラスター分析法の特徴 • 入力データに対する柔軟性 • データの分布を仮定しない(直感的に理解しやすい) • 計算時間が長くかかる

  37. 7. 階層と非階層の使い分け • データの数が比較的少なく、かつ類似度も考慮したい場合、階層的手法を使ってデンドログラムを描くのがよい. • 分析対象が多い場合は非階層的手法を使う。

  38. 8. 注意 • 部分部分で適切なことが全体で適切であるとは限らない。 • 距離をどう定義するか、階層的手法を取るか非階層的手法を取るかetc. • 結果の妥当性を示す明確な方法はない • 統計データにとらわれすぎない広範囲な知識にしたがって意義付けをしていくべきである。 • 数個の分析手法を併用

  39. ある一面だけが強調されやすい • 因子分析・多次元尺度法・主成分分析等で評価の次元を整理を

  40. 参考文献 • 多変量統計解析法 / 田中豊・脇本和昌著 / 現代数学社 • 心理・教育のための多変量解析法入門---基礎編 / 渡部洋編著 / 福村出版社 • 初心者がらくらく読める多変量解析の実践/菅民郎著/現代数学社 • 多変量グラフィカル表現法/Brian Everitt 著/医学統計研究会訳/ MPC • 多変量解析/M.G.ケンドール著/奥野忠一・大橋靖雄訳/培風館

  41. 謝辞 • 去年の資料を見せてくださった神元さん、西君、どうもありがとう。

More Related