多変量データ分析 B 　第 10 回

多変量データ分析B　第10回 第7章：パーティション林俊克＆廣野元久「多変量データの活用術」：海文堂廣野元久 2004.6.23. SFC5限第7章　パーティション

第7章　パーティション　 • パーティショニング • 目標 • パーティションとは何ができる道具かを理解しよう • パーティションのコンピュータ出力を読み取れる力を身につけよう • パーティションのからくりと前提を理解しよう　 • 課題を通じてパーティションの使い手になろう注）多変量空間での下駄箱作成という概念を理解するＪＭＰではパーティションというが，この手の方法にはさまざまな種類と，ソフトウエアによって呼び名が違う第7章　パーティション

適用例と解析ストーリー データ推理小説の有能な探偵と同じ健康診断データ 1）目的変量（結果）を　説明変量（原因）で分類する 2）説明変量（原因）の　相互作用（組合せ）に着目 3）分類ルールの作成第7章　パーティション

適用例と解析の目的 • スライド3のデータセットは第1週のMDA総論で判別分析の紹介 • で使ったもの • 　ここでは説明変量間の相互作用を活用して • 目的変量をうまく分類するルールを作成する　 • クラスター分析は，データに結果である目的変量（分類変量）がなかった • このため教師なし分類と呼ばれる • パーティションでは，研究対象の結果としての目的変量が得られている　 • 説明変量を使って，より誤りなく結果を当てるルールを作るかを研究する • このため教師あり分類と呼ばれる • 世の中には判別や識別の問題が数多くある • パターン認識やマイニングの世界では重要なアイテムの1つである • パーティションは人口知能やマイニングの世界で広く発展してきた方法 • その多くが方法論の名前＝ソフトウエア名になっている • 数値計算学者の力が大きい．第7章　パーティション

7.1　色々な分類アルゴリズム 7.1.1CART( Cｌassification And Regression Tree ) 　分類と回帰木という意味で，非常に高価なプログラムを提供　　しているが，PC上でもっともらしい結果を出したはしり 7.1.2C4.5 　・オーストラリアの数値計算学者が考案，現在はC5である　・名前からして，記号的意味しかなく，いかにも数値計算屋らしい　・やはり方法論と同じ名のソフトウエアが出ている 7.1.3CHAID（Chi-squared Automatic Interaction Detection ）　・AIDから発展（AIDは古くに提案された）自動相互作用検出法　・これは群間変動と群内変動に着目し，分散分析の流れ　・CHAIDは巧妙なアイデアでカイ2乗統計量を分岐ルールに適用　・CHAIDのさらなる発展系としてSPSSからAnswer Treeが出た第7章　パーティション

7.1.5JMPのパーティションの考え方 • 目的変量 • 量的変量の場合は回帰木 • 質的変量の場合は分散分析の流れで決定木 • 説明変量 • 何でもOK，分岐ルールを計算機の中で作る • 分岐は2進木 • オートマチックではない • 分析者と対話的にG2の大きさで階層的に進める • おそらく今後，もっと洗練されていくと思う • 開発途中な感じがする • パーティションはJMPオリジナル（→一般的でない）第7章　パーティション

7.2JMPによるパーテション • まず，出力のグラフから．．感じを理解 ACEとChampion 何を重視して購入したか ACEはこだわりなく購入された？第7章　パーティション

7.2.1　パーティションの起動 • 【操作7.1：RPのプラットフォームの起動】 • ①JMPを起動し，“サンプルデータ”の中にある「車の調査」を読み込む． • ②“分析(A)”メニューの“モデル化”の下位コマンドである“パーティション”をクリックすると図7.1が表示される． • ③“列の選択”から“生産国”をクリックし，“Ｙ，目的変数”ボタンをクリックすると，“生産国”が目的変量に割り当てられる． • ④“列の選択”から“性別”，“既婚／未婚”，“年齢”，“サイズ”，“タイプ”をクリックし，“Ｘ，説明変数”ボタンをクリックすると，それらが説明変量に割り当てられる． • ⑤“OK”ボタンをクリックすると図7.2に示すパーティション・プラットフォームが表示される．図7.1　変量の役割の指定第7章　パーティション

7.2.2　変数選択（分岐）　1/4 “分岐”ボタンをクリックすると，グループを最も際だって２群に分けるような説明変量の分岐値が計算される． • JMPのRPは対話的な選択を行う • 開始前は，欠測でない目的変量すべて１群にまとめられて表示される • “分岐”ボタンをクリックする毎に，群は最適位置で分岐を階層的に繰り返す • 大事になるのが図7.2に示すパーティション・プラットフォームの右下の枠 • 群の全観測値は303個あり，G2＝596.90と計算されている • ヨーロッパ，日本，米国の３水準あり，各確率分布が示されている • 最適な分岐は全説明変量を考慮に入れて決定される分岐の候補となる説明変量がタイトルの“候補”としてリストされる図7.2パーティション・プラットフォーム第7章　パーティション

7.2.2　変数選択（分岐）　2/4 分岐をクリック • JMPでは最適分岐をG2の値で決定する • 候補からサイズの値が最大→分岐はサイズで行うことが望ましい • 群が説明変量のサイズを基準として，サイズ（大型）とサイズ（中型，小型）の　２つに分岐された（パーティションレポートの表示） • 大型の車を購入する層と中型／小型の車を購入する層とでは，生産国の割合に大きな差があることがわかる G2は分岐された 2群の群間変動を最大にする条件を全説明変量から計算する図7.3　第1階層のパーティション第7章　パーティション

7.2.2　変数選択（分岐）　3/4 • サイズ（大型）の群は観測値が42個，G2=42.09である • 各水準の確率分布を見ると，米国が際だって高く0.85強 • 候補では次の分岐ではサイズよりも年齢を使うのが良いことが，その差はさほど大きいものではない． • サイズ（中型、小型）の群は観測値が261個，G2=501.08である • 各水準の確率分布を見ると，日本の確率が高く，米国は低くなっている • 候補ではサイズの G2=18.86と大きく，次の分岐もサイズを使うのがよい青い　　をクリック図7.4　第1階層のパーティション（候補をみる）第7章　パーティション

7.2.2　変数選択（分岐）　4/4 • “分岐”ボタンを再度クリックする • 再度，サイズを基準として中型／小型のグループが，小型グループと中型グループに分岐する • 以下，順次このようにして分岐が進んでゆくどこで止めればよいか分らない第7章　パーティション

7.2.3　変数選択（剪定） • “剪定”ボタン • 分岐処理を取り消す為のボタン • 最後に分岐した２グループが１つのグループに戻る • G2やノード内の標本数の大きさによって階層深く分岐したものを剪定によって，元に戻す操作が必要である • 丁度，庭園の木々を庭師が剪定（枝刈り）をしている様に似ている．第7章　パーティション

7.2.4　パーティションの主要なコマンド 各ノードにあるメニューコマンド図7.5　パーティションメニューのコマンド（目的変量が質的な場合）（目的変量が量的な場合）第7章　パーティション

7.3　パーティショニングの活用指針 • RPにより少数のルール－変量値－個体がどの群に分類されるかを予測可能 • RPの長所 • 事前にモデルを用意しなくてもよい • 膨大なデータを容易に処理することができる • 変量に制約が少なく，連続変量と質的変量の両方を扱える • 結果が非常に解釈しやすい • RPの短所 • 観測値を恣意的なグループ数に割り当てることが比較的容易に出来る • アルゴリズムによっては膨大な計算量を要求する • 注意 • 容易にデータを分析でき，かつ結果解釈の容易さから，ともすれば絶大な説得力を持つこの手法であるからこそ，恣意的なパーティションルールの構築は戒めなければならない • ルールは十分な検証を行ってから活用する • RPで利用したデータは，所謂，学習用データ（トレーニングデータ） • そこから構築されるルールは，いわば仮説の段階に過ぎない • 作成されたルールは，学習用データを非常によく説明するはずであるが，後々のケースに適用した際は，貧弱な予測しかできないというケースが往々にして見られる第7章　パーティション

7.4.1　化粧品の分析　1/6 • データ：化粧品メーカ8社についてのアンケート調査 • 資生堂，カネボウ，コーセー，・・・ ②そのまま，分岐で意味が通じるからクリック!!! ①まずは，候補をみてみよう「やっぱ，よい化粧品は肌に合うっしょう．」図7.7RPの初期画面第7章　パーティション

7.4.1　化粧品の分析　2/6 33％はそれプラス？ 67％ 1階層でかなり分離できた．肌に合わなくっても 25％は購入するんだ．図7.8　第1階層の分岐第7章　パーティション

7.4.1　化粧品の分析　3/6 肌に合うのは当たり前品質高級感があることが大切やっぱチンケな化粧品にヴィトンは合わないっしょ 17％ 45％図7.9　第2階層の分岐第7章　パーティション

7.4.1　化粧品の分析　4/6 肌に合わない高級感もないダメ駄目だと 83％買いたくない 60％ 83％ 17％は危篤なのか，何なのか？夢を売る商売だからこっちに興味がある図7.10　第3階層の分岐第7章　パーティション

7.4.1　化粧品の分析　5/6 ・少しワルノリして，分岐させるとブランド（本当はメーカ名）で分かれたこれだから嗜好品は怖いブランド力が弱い図7.11　メーカで分岐第7章　パーティション

7.4.1　化粧品の分析　6/6 ・さらにワルノリして，分岐させるとブランド（本当はメーカ名）で分かれたブランドの深層を探ろうビンゴ 90％が買ってくれるこれは驚異？図7.12　第5階層で分岐第7章　パーティション

7.4.2　あやめの分析　1/5 • データ：有名なあやめのデータ • 3つの種類をうまく分離できるか？第7章　パーティション

7.4.2　あやめの分析　2/5 例えばRPではこんな風に境界を作る．相関の状態でもうまく分離できそう第7章　パーティション

7.4.2　あやめの分析　3/5 スタート・今回は説明変量が　　連続尺度花弁の長さを選択する図7.13　あやめのパーティションレポート第7章　パーティション

7.4.2　あやめの分析　4/5 花弁の長さでStosaを分離次は Versicolor Virginica の分離第7章　パーティション

7.4.2　あやめの分析　5/5 ほぼ完全に分離OK 判別関数第7章　パーティション

電子部品A 原因で結果に差がでるように分類している • 不良が出ない方向で品質に影響を与えるのは中幅 • 不良が増える方向は中幅+重量 • 中幅の次の階層の変量が左右で異なるところがミソ第7章　パーティション

多変量データ分析 B 第 10 回