1 / 63

多変量データ分析 B  第 9 回

多変量データ分析 B  第 9 回. 第 5 章:クラスター分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.16. SFC5 限. 第 5 章 クラスター分析 . クラスター分析 目標 クラスター分析とは何ができる道具かを理解しよう クラスター分析のコンピュータ出力を読み取れる力を身につけよう クラスター分析のからくりと前提を理解しよう  課題を通じて対応分析の使い手になろう. 注)距離概念を理解すること, JMPではクラスター分析結果のデンドログラム の表示に特徴がある.. 適用例と解析ストーリー. データ.

Download Presentation

多変量データ分析 B  第 9 回

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 多変量データ分析B 第9回 第5章:クラスター分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.16. SFC5限 第5章 クラスター分析

  2. 第5章 クラスター分析  • クラスター分析 • 目標 • クラスター分析とは何ができる道具かを理解しよう • クラスター分析のコンピュータ出力を読み取れる力を身につけよう • クラスター分析のからくりと前提を理解しよう  • 課題を通じて対応分析の使い手になろう 注)距離概念を理解すること, JMPではクラスター分析結果のデンドログラム の表示に特徴がある. 第5章 クラスター分析

  3. 適用例と解析ストーリー データ 試験の成績データ 1)項目間(生徒)の距離を定義 2)データから距離を測定 3)集落(クラスター)の   作成と解釈 第5章 クラスター分析

  4. 適用例と解析の目的 スライド27のデータセットは,主成分分析で使ったデータである. 主成分分析では,主成分得点から主観的にサンプルの分類を 行った.これは,散布図の布置から視覚的に選び出したもの.  ここでは,サンプル間の多次元空間上の距離のみに基づいて 分類(クラスター化)する方法について紹介する.  クラスター分析は,元々,分類学などで用いられた統計的仮定の まったくない方法であったが,統計学者がその有効性に着目して  研究し大きな発展があったといわれる.この意味において,クラス ター分析は異端の方法とも言える.  クラスター分析は分類,集落化,層別化などを行う方法論の総称で, クラスター分析の方法を分類するためにクラスター分析が必要である と悪口を叩かれるくらい多くの方法が提唱されている. 第5章 クラスター分析

  5. 解析ストーリー 1)個々の対象間の近さを測るための距離,クラスターを併合する  際の距離を事前に決める.   個々の対象間の距離を全て計算し,距離が最小となる対象を  統合して最初のクラスターを作る.   新しいクラスターと対象間の距離を全て計算して,対象間の距離  を含めて最小のものを統合する.   これを全てのクラスターが統合されるまで繰り返す. 2)クラスターの統合過程をデンドログラム(樹形図)で表し,  適当な距離で切断することでグループ化する.  各グループに含まれる対象を調べて,グループの特徴を求める. 第5章 クラスター分析

  6. 変数が2個の場合のクラスター分析 最短距離法による分類 1)クラスターの生成方法  ユーグリッド空間を考え,その距離の小さいものから結合する. 2)デンドログラム  結合過程を樹形図で表し,適当な距離で切断し,クラスターを構成  後,そのクラスターの解釈を行う 上の4つの散布図について主観でクラスターを作成してみよ. 第5章 クラスター分析

  7. B 図5.1 身長と体重でのクラスター 5.1 一次元のクラスター分析 • 上の散布図での確率楕円はクラスター分析により分類した結果の表示である • クラスター分析は分類整理のためのツールである • クラスター化の方法について一次元のデータで考える 第5章 クラスター分析

  8. 5.1.1 階層的方法と非階層的方法 1/3 • 日常の分類整理方法の光景を思い浮かべる 第5章 クラスター分析

  9. 5.1.1 階層的方法と非階層的方法 2/3 • 階層的分類 第5章 クラスター分析

  10. 5.1.1 階層的方法と非階層的方法 3/3 • 非階層的方法 第5章 クラスター分析

  11. 難しい距離(類似度)の定義 第5章 クラスター分析

  12. 表5.1 カップアイスの評価得点 図5.2 クラスター間の距離の定義 5.1.2 階層的クラスター • データ 最も近い点で連結 重心で連結 最も遠い点で連結 第5章 クラスター分析

  13. 表5.2 最短距離法の計算 表5.1 カップアイスの評価得点 5.1.3 最短距離法 第5章 クラスター分析

  14. 表5.1 カップアイスの評価得点 表5.3 最長距離法の計算 5.1.4 最長距離法 第5章 クラスター分析

  15. 表5.1 カップアイスの評価得点 表5.4 重心法の計算 5.1.5 重心法 第5章 クラスター分析

  16. 表5.1 カップアイスの評価得点 表5.5Ward法の計算 5.1.7Ward法 第5章 クラスター分析

  17. 図5.35つの方法によるデンドログラム デンドログラムで比較 使う方法により,デンドログラムの形が変わることに注目 第5章 クラスター分析

  18. 図5.4 平方根変換後のデンドログラム 距離を考える 第5章 クラスター分析

  19. 5.1.8 非階層的クラスター分析 1/7 1.階層的分類法 2.非階層的分類法 2.1分割最適化型分類法 2.1.1k-means法 分類方法の本質的考え方 クラスタ-のまとまりの良さmあるいはクラスター間の離れ具合を, 何かの基準で測り,これを最大化(最小化)するという方針で分類 を行う 1)クラスターの約束   クラスター化のための評価基準,クラスター内の等質性 2)分類方法   分類のための算法(アルゴリズム) 3)分け方の数   n個の個体をg群に分けることの容易さ 第5章 クラスター分析

  20. 5.1.8 非階層的クラスター分析 2/7 数値例で確認 1変数35個体のデータを2分類することを考える データ 5,11,12,9,11 4, 14,16,13,5 1, 6, 3, 4,11 12, 4, 8, 1, 6 15, 9,13, 7,12 3,10, 5,10, 3 5, 4, 2, 4,15 平均7.8 平方和 665.6 分散   19.58 直感的な考え方   ヒストグラムを作り2山になっているところで区切ればよいだろう 問題点:客観性&アルゴリズム(一般性)がない. 第5章 クラスター分析

  21. 5.1.8 非階層的クラスター分析 3/7 では,35個のデータを2群に分けるとして,その方法は全部で 幾つあるか...     答え:171億7986万9183とおりある ・大規模データで2群に分けるとしても全ての方法を試すことは  現実的に不可能である. ・クラスターの評価基準が決まっても,それを最適にする分類の  組み合わせを網羅的に調べることができない それに代わる方法を見つける必要があろう    ・相関比η2を使う  群間変動と群内変動の比較 第5章 クラスター分析

  22. 5.1.8 非階層的クラスター分析 4/7 2つの分類方法を選び出した 171億数千万とおり 12.4286(14) 8.000(17) 7.61111(18) 4.7143(21) 方法1が方法2よりも優れているようにみえる   全体の平方和を群間と群内に分解して評価すればよい 第5章 クラスター分析

  23. 5.1.8 非階層的クラスター分析 5/7 クラスター内 (群内)平方和 クラスター間 (群間)平方和 クラスター内平方和が小さくて,クラスター間平方和が大きいほうが うまく分類されたと考えればよいだろう.     つまりSB最大 あるいはSW最小を判断基準にすればよい p変数空間でg個のクラスターに 分割するイメージ ・ある個体は複数のクラスター  にまたがって所属しない ・どの個体もいずれかのクラス  ターに所属している 第5章 クラスター分析

  24. 5.1.8 非階層的クラスター分析 6/7 分割の総数の計算   第2種のスターリング数によって表される n,gの与え方によって,あっという間に天文学的数字になる 全分割方法を調べるのは実質的に不可能なので    簡便法(一部実施方法によるアルゴリズムが必要) 第5章 クラスター分析

  25. 5.1.8 非階層的クラスター分析 7/7 分割方法のアルゴリズム概要 1)初期配置または初期分割   -クラスター数の決定   -全個体をクラスターに仮決めする     ・クラスターの識別,初期の各クラスターの重心の設定 2)各クラスターの縮約値の計算   -平均ベクトル   -平方和,分散 3)最適化基準の改良,反復   -個体のクラスター間移動と再配置   -クラスターの最適化基準の比較 4)収束判定   -クラスター別の縮約値の算出   -クラスタリングの履歴の整理 第5章 クラスター分析

  26. k-means法 1/4 k-means法 k個の分割(クラスター)について,平均値(ベクトル)と平方和 を用いて改良を進める方法 クラスター評価基準  ・クラスター内平方和Sw(g) 方法  ・平方和の分解公式を利用して,   個体1つずつ,クラスターを移動させて評価基準の変化の様子   を調べるものである. 第5章 クラスター分析

  27. k-means法 2/4 1個減る 移動させる 1個増える            クラスター内平方和の変化量  群t 変化なし 群k 群l ここに着目 第5章 クラスター分析

  28. k-means法 3/4 個体rのクラスター間移動に伴なう平方和の変化量は 従って,ΔS<0ならば個体rの移動により平方和が改善 それ以外は改善されなかったと判断 k-means法のアルゴリズム  手順1.n個の個体をg個のクラスターに初期分割する  手順2.移動させる候補の個体rを選び,順次クラスター移動        (クラスターサイズが1の場合は手順5へ:シングルトン)  手順3.ΔS<0となるクラスターが見つかれば移動  手順4.移動のあった2つのクラスターの平均ベクトル,平方和の      計算  手順5.ΔSの様子に変化が見られなかったら終了,聡でなければ      手順2へ 第5章 クラスター分析

  29. k-means法 4/4 留意点  ・初期配置の方式      クラスター数の決定,初期代表値の選定  ・移動&再配置の方式  ・最適化基準の選択      局所最適であること:分割の全てのとおり数の検索は困難  ・アルゴリズム  ・シングルトンの影響(外れ値)  ・クラスターサイズへの配慮 第5章 クラスター分析

  30. 図5.5 平方和の分解 表5.6K-means法の計算 k-means法の手順 第5章 クラスター分析

  31. 2次元でのクラスターの形成方法 1/5 簡単なデータセットによる理解 #3 #5 #4 #2 グラフより直感的に {(#4,#5),(#1,#2)},#3 であることが分かる #1 距離の定義  我々の世界の代表的な距離:ユーグリッド距離  相関関係の確率による距離:マハラノビス距離  より一般的な包含的距離  :ミンコフスキー距離         ここでは,分かりやすいユーグリッド距離を使う 第5章 クラスター分析

  32. 2次元でのクラスターの形成方法 2/5 平面におけるユーグリッド距離 三平方の定理を利用して 5つの点のユーグリッド距離を計算すると 最短距離法は,5つの クラスターの中で距離が 最短なクラスターを結合する 距離最短は#4-#5の距離1であるから,これらを 同じクラスターC1(4,5)とする. 第5章 クラスター分析

  33. 2次元でのクラスターの形成方法 3/5 #3 #5 C1 #4 #2 今度は, #1,#2,#3,C1 の距離を測る #1 C1から#1,#2,#3への距離は,#4と#5からの距離の短い方を採用 する. 最短は#1-#2の 距離d12=1.41 C1 第5章 クラスター分析

  34. 2次元でのクラスターの形成方法 4/5 #3 #5 C1 #4 #2 今度は, C2,#3,C1 の距離を測る C2 #1 C1から#3,C2への距離は,#4と#5からの距離の短い方を採用する. C2から#3,C1への距離は,#1と#2からの距離の短い方を採用する. C2 最短はC1-C2の 距離dc1c2=2.24 C1 第5章 クラスター分析

  35. 2次元でのクラスターの形成方法 5/5 #3 #5 C1 #4 C3 #2 今度は, C3,#3 の距離を測る C2 #1 C3から#3への距離は,#1,#2,#4と#5からの距離の最短を採用する.. C2 最短はC3-#3の 距離d3C3=4.00 C3 C1 第5章 クラスター分析

  36. ⅳ) ⅰ) ⅲ) ⅱ) デンドログラム 距離に着目してデンドログラムで 表すと分かりやすい 英が得意 主観的に距離2で切断する ・3つのクラスターが得られた 国が得意 英・国共に得意 距離は客観的 クラスター数,解釈には分析者の 意図が入る #3#5#4#2#1 第5章 クラスター分析

  37. 変数がp個の場合のクラスター分析 1/2 変数がp個になっても同様の考え方で距離を測る P次元のユーグリッド距離は 特定の問題以外は,ユーグリッド距離で測定すればよいので, 他の距離については,ここでは省略する. JMPによる分析  ・スライド3のデータを入力する  ・メニューの分析の多変量から   クラスター分析をクリックする 2.クリックして  読み込む 1.変数を  全て指定 3.オプションで階層型,手法-最短距離法を  設定してOKボタンをクリックする. 第5章 クラスター分析

  38. 変数がp個の場合のクラスター分析 2/2 JMPでの出力 デンドログラム どの科目も   比較的に優秀 クラスターの解釈 クラスター分析 +主成分分析で 解釈すると理解しやすい どの科目も   点数が高くはない サンプルの結合過程 距離の結合過程 第5章 クラスター分析

  39. クラスター間の距離 A.最短距離法 B.最長距離法  ・最初に全てのサンプルの距離を計算する.  ・クラスターを結合する場合に,最も近い距離をクラスター間の距離にするか,  最も遠い距離にするかの違いがある.  ・最短距離法は,特定の場合,例えば地震や火山帯のクラスターに利用され  るが一般に用いると,鎖効果が出て好ましくない. ⅰ) ⅳ) ⅲ) ⅱ) 最短距離法 最長距離法 第5章 クラスター分析

  40. Ward法 1)ウォード法の特徴  実用的であること.すなわちよいクラスターが作れる. 鎖効果がおきにくい.    ある1つのクラスターに対象が順次1つづつ追加されていく    現象  鎖効果が起きると対象の群分けが達成できなくなる. 鎖効果       よいクラスター 2)変数が2個の場合のウォード法 3)変数がp個の場合のウォード法 第5章 クラスター分析

  41. 変数が2個の場合のウォード法 1/5 #2 重心 #1 生徒#1と#2を1つのクラスタにまとめたときの平方和を計算 平方和とは重心からの距離の二乗和であった 平面における2点の平均からの距離の二乗和を計算する 第5章 クラスター分析

  42. 変数が2個の場合のウォード法 2/5 平面における2点の平均からの距離の二乗和を計算する 平面における平方和最小なのは(#4-#5)であるから これをC1とする 第5章 クラスター分析

  43. 変数が2個の場合のウォード法 3/5 平面における各クラスターの二乗和の増分で判断する C1では#4,5と他のサンプルの平方和を計算し,その増分で評価する C2は#1,2とする 第5章 クラスター分析

  44. 変数が2個の場合のウォード法 4/5 平面における各クラスターの二乗和の増分で判断する C1,C2の平方和の増分の計算 C3をC1,C2とする 第5章 クラスター分析

  45. 変数が2個の場合のウォード法 5/5 平面における各クラスターの二乗和の増分で判断する C3,#3の平方和の増分の計算 これで完了 第5章 クラスター分析

  46. 変数がp個の場合のウォード法 JMPを使いウォード法でスライドのデータを分析してみよう 第5章 クラスター分析

  47. 5.2 クラスター分析の活用指針 • 用いる方法によって,結果が大きく異なる可能性がある. • 構成されたクラスターが意味があるものなのかを知見に基づいて判断する必要がある. • 主成分と組み合わせると分りやすい 第5章 クラスター分析

  48. 5.2.1 クラスター分析の目的と到達レベル 第5章 クラスター分析

  49. 5.2.2 クラスター分析の手順 1/4 • 分析前のチェック!!! • 本当にCLUSTの問題かどうか検討しておく. • 分析にあたっては,クラスター自体検討する必要のない場合 • 予め分類情報をもった変量がある場合など • 事前検討に時間を使う. • 事前に知見から,どの程度のクラスターが得られるか仮説を立てる • 直接CLUSTには使わないがクラスターの性格を決めるような項目の準備など 第5章 クラスター分析

  50. 5.2.2 クラスター分析の手順 2/4 • ①分析に必要な変量を選定する • 分析目的に対して無意味な変量を含んでいると分析結果の解釈が困難になる • 変量選定には十分な吟味が必要である • ②個体の数は目的に応じて集める • CLUSTは,記述の意味合いが強い手法であるので,無作為に集まられた個体でも,意図的に集められた個体でもよい • ③データは分析しやすいようにデータ行列にまとめる • DBの活用や実際にアンケート等によりデータを収集する • 必要であれば,対数変換や単位当りの比率に加工しておく 第5章 クラスター分析

More Related