270 likes | 424 Views
多変量データ分析 B 第 10 回. 第 7 章:パーティション 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.23. SFC5 限. 第 7 章 パーティション . パーティショニング 目標 パーティションとは何ができる道具かを理解しよう パーティションのコンピュータ出力を読み取れる力を身につけよう パーティションのからくりと前提を理解しよう 課題を通じてパーティションの使い手になろう. 注)多変量空間での下駄箱作成という概念を理解する JMPではパーティションというが,この手の方法には
E N D
多変量データ分析B 第10回 第7章:パーティション 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.23. SFC5限 第7章 パーティション
第7章 パーティション • パーティショニング • 目標 • パーティションとは何ができる道具かを理解しよう • パーティションのコンピュータ出力を読み取れる力を身につけよう • パーティションのからくりと前提を理解しよう • 課題を通じてパーティションの使い手になろう 注)多変量空間での下駄箱作成という概念を理解する JMPではパーティションというが,この手の方法には さまざまな種類と,ソフトウエアによって呼び名が違う 第7章 パーティション
適用例と解析ストーリー データ 推理小説の有能な探偵と同じ 健康診断データ 1)目的変量(結果)を 説明変量(原因)で分類する 2)説明変量(原因)の 相互作用(組合せ)に着目 3)分類ルールの作成 第7章 パーティション
適用例と解析の目的 • スライド3のデータセットは第1週のMDA総論で判別分析の紹介 • で使ったもの • ここでは説明変量間の相互作用を活用して • 目的変量をうまく分類するルールを作成する • クラスター分析は,データに結果である目的変量(分類変量)がなかった • このため教師なし分類と呼ばれる • パーティションでは,研究対象の結果としての目的変量が得られている • 説明変量を使って,より誤りなく結果を当てるルールを作るかを研究する • このため教師あり分類と呼ばれる • 世の中には判別や識別の問題が数多くある • パターン認識やマイニングの世界では重要なアイテムの1つである • パーティションは人口知能やマイニングの世界で広く発展してきた方法 • その多くが方法論の名前=ソフトウエア名になっている • 数値計算学者の力が大きい. 第7章 パーティション
7.1 色々な分類アルゴリズム 7.1.1CART( Classification And Regression Tree ) 分類と回帰木という意味で,非常に高価なプログラムを提供 しているが,PC上でもっともらしい結果を出したはしり 7.1.2C4.5 ・オーストラリアの数値計算学者が考案,現在はC5である ・名前からして,記号的意味しかなく,いかにも数値計算屋らしい ・やはり方法論と同じ名のソフトウエアが出ている 7.1.3CHAID(Chi-squared Automatic Interaction Detection ) ・AIDから発展(AIDは古くに提案された)自動相互作用検出法 ・これは群間変動と群内変動に着目し,分散分析の流れ ・CHAIDは巧妙なアイデアでカイ2乗統計量を分岐ルールに適用 ・CHAIDのさらなる発展系としてSPSSからAnswer Treeが出た 第7章 パーティション
7.1.5JMPのパーティションの考え方 • 目的変量 • 量的変量の場合は回帰木 • 質的変量の場合は分散分析の流れで決定木 • 説明変量 • 何でもOK,分岐ルールを計算機の中で作る • 分岐は2進木 • オートマチックではない • 分析者と対話的にG2の大きさで階層的に進める • おそらく今後,もっと洗練されていくと思う • 開発途中な感じがする • パーティションはJMPオリジナル(→一般的でない) 第7章 パーティション
7.2JMPによるパーテション • まず,出力のグラフから..感じを理解 ACEとChampion 何を重視して購入したか ACEはこだわりなく購入された? 第7章 パーティション
7.2.1 パーティションの起動 • 【操作7.1:RPのプラットフォームの起動】 • ①JMPを起動し,“サンプルデータ”の中にある「車の調査」を読み込む. • ②“分析(A)”メニューの“モデル化”の下位コマンドである“パーティション”をクリックすると図7.1が表示される. • ③“列の選択”から“生産国”をクリックし,“Y,目的変数”ボタンをクリックすると,“生産国”が目的変量に割り当てられる. • ④“列の選択”から“性別”,“既婚/未婚”,“年齢”,“サイズ”,“タイプ”をクリックし,“X,説明変数”ボタンをクリックすると,それらが説明変量に割り当てられる. • ⑤“OK”ボタンをクリックすると図7.2に示すパーティション・プラットフォームが表示される. 図7.1 変量の役割の指定 第7章 パーティション
7.2.2 変数選択(分岐) 1/4 “分岐”ボタンをクリックすると, グループを最も際だって2群に 分けるような説明変量の 分岐値が計算される. • JMPのRPは対話的な選択を行う • 開始前は,欠測でない目的変量すべて1群にまとめられて表示される • “分岐”ボタンをクリックする毎に,群は最適位置で分岐を階層的に繰り返す • 大事になるのが図7.2に示すパーティション・プラットフォームの右下の枠 • 群の全観測値は303個あり,G2=596.90と計算されている • ヨーロッパ,日本,米国の3水準あり,各確率分布が示されている • 最適な分岐は全説明変量を考慮に入れて決定される 分岐の候補となる説明変量が タイトルの“候補”として リストされる 図7.2パーティション・プラットフォーム 第7章 パーティション
7.2.2 変数選択(分岐) 2/4 分岐をクリック • JMPでは最適分岐をG2の値で決定する • 候補からサイズの値が最大→分岐はサイズで行うことが望ましい • 群が説明変量のサイズを基準として,サイズ(大型)とサイズ(中型,小型)の 2つに分岐された(パーティションレポートの表示) • 大型の車を購入する層と中型/小型の車を購入する層とでは,生産国の割合に大きな差があることがわかる G2は分岐された 2群の群間変動を 最大にする条件を 全説明変量から 計算する 図7.3 第1階層のパーティション 第7章 パーティション
7.2.2 変数選択(分岐) 3/4 • サイズ(大型)の群は観測値が42個,G2=42.09である • 各水準の確率分布を見ると,米国が際だって高く0.85強 • 候補では次の分岐ではサイズよりも年齢を使うのが良いことが,その差はさほど大きいものではない. • サイズ(中型、小型)の群は観測値が261個,G2=501.08である • 各水準の確率分布を見ると,日本の確率が高く,米国は低くなっている • 候補ではサイズの G2=18.86と大きく,次の分岐もサイズを使うのがよい 青い をクリック 図7.4 第1階層のパーティション(候補をみる) 第7章 パーティション
7.2.2 変数選択(分岐) 4/4 • “分岐”ボタンを再度クリックする • 再度,サイズを基準として中型/小型のグループが,小型グループと中型グループに分岐する • 以下,順次このようにして分岐が進んでゆく どこで止めればよいか分らない 第7章 パーティション
7.2.3 変数選択(剪定) • “剪定”ボタン • 分岐処理を取り消す為のボタン • 最後に分岐した2グループが1つのグループに戻る • G2やノード内の標本数の大きさによって階層深く分岐したものを剪定によって,元に戻す操作が必要である • 丁度,庭園の木々を庭師が剪定(枝刈り)をしている様に似ている. 第7章 パーティション
7.2.4 パーティションの主要なコマンド 各ノードにあるメニューコマンド 図7.5 パーティションメニューのコマンド(目的変量が質的な場合) (目的変量が量的な場合) 第7章 パーティション
7.3 パーティショニングの活用指針 • RPにより少数のルール-変量値-個体がどの群に分類されるかを予測可能 • RPの長所 • 事前にモデルを用意しなくてもよい • 膨大なデータを容易に処理することができる • 変量に制約が少なく,連続変量と質的変量の両方を扱える • 結果が非常に解釈しやすい • RPの短所 • 観測値を恣意的なグループ数に割り当てることが比較的容易に出来る • アルゴリズムによっては膨大な計算量を要求する • 注意 • 容易にデータを分析でき,かつ結果解釈の容易さから,ともすれば絶大な説得力を持つこの手法であるからこそ,恣意的なパーティションルールの構築は戒めなければならない • ルールは十分な検証を行ってから活用する • RPで利用したデータは,所謂,学習用データ(トレーニングデータ) • そこから構築されるルールは,いわば仮説の段階に過ぎない • 作成されたルールは,学習用データを非常によく説明するはずであるが,後々のケースに適用した際は,貧弱な予測しかできないというケースが往々にして見られる 第7章 パーティション
7.4.1 化粧品の分析 1/6 • データ:化粧品メーカ8社についてのアンケート調査 • 資生堂,カネボウ,コーセー,・・・ ②そのまま,分岐で 意味が通じるから クリック!!! ①まずは,候補をみてみよう 「やっぱ,よい化粧品は 肌に合うっしょう.」 図7.7RPの初期画面 第7章 パーティション
7.4.1 化粧品の分析 2/6 33%はそれプラス? 67% 1階層でかなり分離 できた. 肌に合わなくっても 25%は購入するんだ. 図7.8 第1階層の分岐 第7章 パーティション
7.4.1 化粧品の分析 3/6 肌に合うのは 当たり前品質 高級感があることが 大切 やっぱチンケな 化粧品に ヴィトンは 合わないっしょ 17% 45% 図7.9 第2階層の分岐 第7章 パーティション
7.4.1 化粧品の分析 4/6 肌に合わない 高級感もない ダメ駄目だと 83%買いたくない 60% 83% 17%は危篤なのか,何なのか? 夢を売る商売だから こっちに興味がある 図7.10 第3階層の分岐 第7章 パーティション
7.4.1 化粧品の分析 5/6 ・少しワルノリして,分岐させると ブランド(本当はメーカ名)で分かれた これだから嗜好品は怖い ブランド力が弱い 図7.11 メーカで分岐 第7章 パーティション
7.4.1 化粧品の分析 6/6 ・さらにワルノリして,分岐させると ブランド(本当はメーカ名)で分かれた ブランドの深層を探ろう ビンゴ 90%が 買ってくれる これは驚異? 図7.12 第5階層で分岐 第7章 パーティション
7.4.2 あやめの分析 1/5 • データ:有名なあやめのデータ • 3つの種類をうまく分離できるか? 第7章 パーティション
7.4.2 あやめの分析 2/5 例えばRPではこんな風に 境界を作る. 相関の状態でもうまく分離できそう 第7章 パーティション
7.4.2 あやめの分析 3/5 スタート ・今回は説明変量が 連続尺度 花弁の長さを選択する 図7.13 あやめのパーティションレポート 第7章 パーティション
7.4.2 あやめの分析 4/5 花弁の長さでStosaを分離 次は Versicolor Virginica の分離 第7章 パーティション
7.4.2 あやめの分析 5/5 ほぼ完全に分離OK 判別関数 第7章 パーティション
電子部品A 原因で結果に差がでるように分類している • 不良が出ない方向で品質に影響を与えるのは中幅 • 不良が増える方向は中幅+重量 • 中幅の次の階層の変量が左右で異なるところがミソ 第7章 パーティション