520 likes | 990 Views
多変量解析. 立教大学経営学部 山口和範 http://www2.rikkyo.ac.jp/web/kyamagu/j/. 本日の内容. 分析手法の分類 主成分分析 因子分析 ・・・. 多変量データの分析. 変数間の関係を探る 相関分析 散布図 回帰分析 …. カテゴリデータの分析. 正規分布の仮定が置けない 変数間の関係を探る クロス集計表 , 3 次元のヒストグラム ( 棒グラフ ) 対数線形モデル 潜在クラス分析 …. 変数間の関係を探ることで …. 現象を知る 構造を知る 予測に使う. 連関分析. 量的変数間の関係を探る
E N D
多変量解析 立教大学経営学部 山口和範 http://www2.rikkyo.ac.jp/web/kyamagu/j/
本日の内容 • 分析手法の分類 • 主成分分析 • 因子分析 • ・・・
多変量データの分析 • 変数間の関係を探る • 相関分析 • 散布図 • 回帰分析 • …
カテゴリデータの分析 • 正規分布の仮定が置けない • 変数間の関係を探る • クロス集計表, 3次元のヒストグラム(棒グラフ) • 対数線形モデル • 潜在クラス分析 • …
変数間の関係を探ることで… • 現象を知る • 構造を知る • 予測に使う
連関分析 • 量的変数間の関係を探る • 散布図、相関係数 • 質的変数間の関係を探る • クロス集計表 • 量的変数と質的変数間の関係を探る • グループ別平均
目的変数の有無 • 目的変数がある場合 • 予測したい変数(予測・判別) • 原因を探りたい変数(要因分析) • 目的変数がない場合 • 構造分析 • 分類
多変量解析の分類 • 目的変数の有無とデータの型で • データの型 • 量的変数 • 質的変数
重回帰分析 • 目的 • 複数の変数によって興味のある量的変数の値を予測する • ある変数の、特定の変数(目的変数)に対する重要度を知る • データの特徴 • 目的変数(量的)←説明変数(量的/ダミー) • 中心のアウトプット • 重相関係数・決定係数、偏回帰係数・標準化偏回帰係数 • 注意点 • 説明変数間に強い相関がある場合(多重共線性)、偏回帰係数の解釈には注意が必要 • モデルを作成したデータの範囲を超えての予測は難しい(外挿)
判別分析 • 目的 • 複数の変数によって興味のあるカテゴリ変数の値を予測する • ある変数の、各カテゴリの判別における重要度を知る • データの特徴 • 基準変数(カテゴリ)←説明変数(量的/ダミー) • 中心のアウトプット • 標準化された正準判別関数係数、予測されたカテゴリ、誤判別率 • 注意点 • 説明変数間に強い相関がある場合(多重共線性) • 未知ケースについての判別力を評価するためには、交差妥当化や別データでのチェックが必要
ロジスティック回帰分析 • 目的 • 複数の変数によって興味のある事象が生起する確率を予測し、事象の有無を判別する • ある変数の値の変化が、事象の生起する見込みをどの程度変化させるか(オッズ比)を知る • データの特徴 • 目的変数(2値)←説明変数(量的/ダミー) • 利点 • 判別においての寄与度をオッズ比を利用して知ることが可能 • 中心のアウトプット • ロジスティック回帰係数、オッズ比
主成分分析 • 目的 • 複数の変数の情報から主要な成分を抽出する(情報の合成) • 非常に多くの変数から、少数の無相関な新しい変数を作成 • データの特徴 • 目的変数なし、量的/ダミー変数 • 利点 • 因子分析と比べると理論が単純で扱いやすい • 第1主成分に最大の分散を持たせるので、総合指標のように扱える • 複数の相互に関連した変数を合成した各成分の得点は無相関であるため、元の変数をそのまま用いるよりも次の分析に持ち込みやすい • 中心のアウトプット • 固有値、固有ベクトル、負荷量、主成分得点
因子分析 • 目的 • 非常に多くの変数から、単純で少数の意味のある「共通因子」を得る(情報の縮約) • データの特徴 • 目的変数なし、量的/ダミー変数 • 中心のアウトプット • 因子負荷量、適合度検定、因子得点 • 注意点 • 探索的な因子分析と確証的因子分析の区別、共分散構造分析への発展
対応分析 • 目的 • 名義尺度で測定された2つの変数に対する回答パターンから各カテゴリを低次元の概念空間に布置し、関係性を解釈する • 利点 • 数量データを前提とする主成分分析と同様の分析をカテゴリデータに対して実施できる • 各ケースの次元得点を得られ、次の分析に用いることができる • 中心のアウトプット • カテゴリスコア、散布図 • 関連手法 • 数量化Ⅲ類:0-1のダミー変数が対象 • 等質性分析(HOMALS):3つ以上のカテゴリ変数が扱える
多次元尺度法 • 目的 • 類似度から興味のある変数群を低次元の概念空間に布置し、類似性を解釈する • データの特徴 • 複数の対象間の類似度(距離)データ • 中心のアウトプット • ストレス値、刺激座標 • 注意点 • 抽出した次元の解釈は恣意的
クラスター分析 • 目的 • 複数の変数の情報から類似しているケースをグループ化する • 複数の変数を類似したグループにクラスタリングする • データの特徴 • 目的変数なし、量的・度数・2値データ • 中心のアウトプット • デンドログラム、所属クラスタ • 注意点 • 選択する距離測定手法やクラスタ化の方法によってかなり異なる結果をもたらす場合がある
主成分分析の目的 • 情報の集約 • 新しい尺度の構築 • 構造の探索
主成分分析 現在の変数を組み合わせて 新しい変数をつくる 主成分
主成分 線形結合
主成分分析 p個の変数 から 新しい尺度 を作成 は無相関
主成分分析 第1主成分は最大の分散 第2主成分は次に大きい分散 ・・・
主成分数の決定 • 寄与率 • 固有値 • スクリープロット • 解釈
主成分の解釈 • 各変数への重みを基に解釈を行う • 符号と絶対値に注目 • 絶対値の小さな係数の変数は無視
ここからの内容 • 潜在変数を用いたモデル • 因子分析モデル • 推定法 • 適合度 • 構造方程式モデルへ • 測定モデルと構造モデル
簡単な例から • 本塁打と三振の散布図
どのようなモデルが… • 回帰分析モデル • 三 振 =a+b×本塁打+e • 本塁打=a+b× 三 振 +e b が正の意味は 三振をすれば本塁打が 打てる!?
現実の合うモデルは… 本塁打 三 振 2変数間の相関は直接的なものではなく…
現実の合うモデルは… 本塁打 三 振 + ー + + 打撃能力 Swing Speed
正の相関の理由は… • 打撃能力にあまり差がない標本 (プロ野球のデータ) • もし、打撃能力に差があるようなデータを集めれば…
潜在変数(latent variable)とは • 直接観測されない(できない)変数 • 誤差なしで測定できない • 学生の能力を測りたい • 満足度を測りたい • 打撃力
関連する変数同士をまとめる • 主成分分析法: Principal Component Analysis • 潜在変数モデル 変数間の関係を説明するモデル 総合指標の作成
潜在変数とは? 概念的、仮説的変数 直接測定できない • 心理学 ヒトの能力、知能、個性 • 社会学 地位、行動、意識 • 経営学 消費者の嗜好、態度 • 経済学 景気動向、産業別生産性、リスク • 医学 症候群、Quality of Life • 信頼性 故障のハザード
潜在変数 顕在変数 E テスト1 E テスト2 E テスト3 潜在変数の値を固定したら、 顕在変数間の相関(連関)は消失する E テスト4 知能(Z) 相関(連関)関係 偽の相関(連関)関係
英語 a b 国語 学力 c 算数 d 理科 英語=a×学力+誤差1 国語=b×学力+誤差2 算数=c×学力+誤差3 理科=d×学力+誤差4
因子分析モデル 共通因子: 独自因子: 独自因子は互いに無相関 (変数) (変数)
潜在変数を使う理由 • 多くの測定データ(顕在変数)間の複雑な関係を低い次元の因子(潜在変数)で、解釈できる。 • 測定誤差の影響を受けない因子(潜在変数)間の因果関係を推論する方が、測定誤差を伴う顕在変数間の関係を推論するより、精度の高い結果が得られる。 節約の原理 希薄化の修正
潜在変数を使う理由 • 観測できない集団の異質性 • 観測できない共変量の組み込み Unobserved heterogeneity の修正
因子1 因子q 因子分析モデル 変数1 変数2 ・・・ ・・・ 変数p q個の因子 p個の変数
因子分析の手順 • 分析する変数の指定 • 因子数の決定 • 適合度 • 固有値・寄与率など • 因子の回転 • 解釈を簡単にするため / 単純構造 • 直交回転・斜交回転 • 因子得点を使った分析
斜交回転 • 因子間相関を認め、より単純構造を追及 • 因子負荷の濃淡がはっきりし、解釈が簡単になる • 直接オブリミン回転がSPSSで利用可能