430 likes | 1.01k Views
質的データの分析手法 --- プロビットモデル・ロジットモデルの概要 ---. 立教大学 経営学部 山口和範. 内容. 2 値型の目的変数の分析 判別分析 ロジステック回帰モデル 多群の判別 ロジットモデル プロビットモデル. 目的変数. 「予測」をしたい変数 「従属変数」ともいう 「結果」としてとらえる変数 要因から影響されている変数 「目的変数」に影響を与える変数を 「説明変数」とか「独立変数」とよぶ. データ形式. 回帰分析と同じデータ形式: 1 つの目的変数 複数の説明変数. 目的変数. 説明変数. (線形)判別分析とは.
E N D
質的データの分析手法---プロビットモデル・ロジットモデルの概要---質的データの分析手法---プロビットモデル・ロジットモデルの概要--- 立教大学 経営学部 山口和範
内容 • 2値型の目的変数の分析 • 判別分析 • ロジステック回帰モデル • 多群の判別 • ロジットモデル • プロビットモデル
目的変数 • 「予測」をしたい変数 「従属変数」ともいう • 「結果」としてとらえる変数 • 要因から影響されている変数 「目的変数」に影響を与える変数を 「説明変数」とか「独立変数」とよぶ
データ形式 回帰分析と同じデータ形式: 1つの目的変数 複数の説明変数 目的変数 説明変数
(線形)判別分析とは 目的 ■説明変数から得られる情報を基に各観測個体がどのグループに属するかを予測(判別)する ■グループの判別に役に立つ変数がどれかを知る 注意:回帰分析のときと同様に要因分析としての使用については、十分な検討が必要。 出力とその検討事項 • ■ 説明変数についての係数 • 線形判別を行うスコアを算出する際に各変数に与えられる重み • 他の変数の値が一定であるとして、その変数の値の大小が所属グループの違い • に与える影響を知ることができる • ■ 誤判別率 • 作成した判別ルールでまちがって判別してしまう割合。 • あくまで、判別ルールを作成したデータでの誤判別率であることに注意。 • ■ 事後確率 • 各個体がどのグループに属するかを示す指標。確率的な取り扱いが可能。 関連手法・類似手法 ■ 回帰分析 ■ ロジステック回帰分析 ■ 決定木 ■ ニューラルネットワーク
2つのグループを分けるように 説明変数のある値で区切る グループと考える グループと考える x 境界 判別分析の仕組み(説明変数が1つの場合) 事後確率の算出方法(ベイズの定理) Pr(X|●) Pr(●|X)= Pr(X|●)+Pr(X|▲) 分布の仮定として正規分布を用いている。正規分布の仮定が気になるようであれば ロジスティック回帰分析を用いる方がよい(さほど大差はないと思うが...)。
線形判別分析の仕組み(説明変数が2つ) 2つのグループを分けるように 説明変数の平面(変数が2つなので)をある直線で区切る 事後確率の算出方法 多変量正規分布を仮定して、事後確率を算出する。 注意:ダミー変数を用いているような場合には、正規分布の仮定は適切でないので、ロジスティック回帰分析が用いられることが多い 説明変数の数が多い場合でも原理は同じ。説明変数が構成する空間を(超)平面で区切るだけである
線形判別関数 係数は観測されている2群のデータを 最もよく判別するように決める 「最もよく判別する」の意味 平方和でいえば、 群間平方和を大きく 群内平方和を小さく
3つの平方和(回帰の場合) • 総平方和 • 回帰による平方和 • 残差平方和
3つの平方和(回帰の場合) • 総平方和 ・・・ Yの変動(モデルなし) • 回帰による平方和 • 残差平方和 ・・・ モデルをあてはめた 後の変動
3つの平方和(判別の場合) • 総平方和 • 群間平方和 • 群内平方和
3つの平方和(判別の場合) 第 k 群のi番目のZ • 総平方和 • 群間平方和 • 群内平方和 全体での平均 第 k 群の個体数 第 k 群の平均
3つの平方和の関係 • 回帰の場合 • 総平方和=回帰による平方和 + 残差平方和 • 判別の場合 • 総平方和 =群間平方和 + 群内平方和 • 相関比(回帰分析の決定係数と同じようなもの) この値が1に近いほど、よりはっきりと分かれていることを示す
線形判別 Z
境界の設定 • 2群の平均値の中間点 • 誤判別の個数を最小にする点 • 事前確率の導入(各群の大きさを考慮)
誤判別率の解釈 • あくまで現データにおける誤判別の割合 • 実際の判別における誤判別率ではない もっと悪いであろう • 実際の誤判別率を推定するためには、 別の標本を用意する
線形判別における前提 • 2群の共分散行列が同じである • 散らばりの大きさや相関が2群でおなじ • 正規分布
共分散行列が異質の場合 • 線形判別関数は適切でない • 2次判別関数を利用 • 共分散を考慮した中心(平均)からの距離が近い群に判別する • マハラノビス距離
マハラノビス距離 • 同じ等高線上では同じ距離 確率の意味での距離
ロジスティック回帰分析 • 目的は判別分析とほぼ同じ • 正応答確率などを積極的に推定したい場合などに便利(確率の算出において、説明変数の分布の仮定が不必要) • 正応答確率の対数オッズ比に対する線形モデル
ロジスティック回帰分析 回帰係数の推定には、最尤推定法(MLE)が用いられる
オッズとは? • Odds 例:イギリスのBookmaker Japan to win 2006 World Cup : 150 to 1 :雨が降るか? even ( 1 to 1 ) [五分五分]
ロジスティック回帰分析 • モデルの適合度の比較 • 尤度比検定 • 回帰係数の検定やチェック • Wald 検定 ( t検定と同じようなもの) • 漸近的な性質を利用 • オッズ比に直して解釈することもある(exp(b))
分析の前に • 回帰分析の前には散布図などで、連関の様子を見た • 判別分析やロジスティック回帰分析の場合は、層別グラフによるチェックが有効! • グループ別の分布をチェックしておこう
多グループの判別 • 正準判別分析(正準相関分析) • 目的変数が複数ある回帰分析 • 多項ロジット(プロビット)モデル
ブランド選択モデル:効用最大化原理 • C 個の選択肢 • Uc :ブランド c の効用 • X :選択されるブランド
ブランド選択モデル の下で、Pr ( X = c) をモデル化したい 顕在変数 潜在変数 XU
確定的な 部分 効用のモデル 確率的な 部分 • Vcだけで選択が確定するのではない • 確率変数ecの分布により確率 Pr(X = c) が決まる
プロビットモデル • ecの分布に正規分布を仮定 C=2の場合 0 V1-V2
一般の場合の確率の計算 • C個のブランドの中からブランド j が選ばれる C-1個の確率変数について Zc>0となる確率を求める (Orthant Probability)
プロビットモデル • 潜在変数(効用)の分布として、正規分布を仮定 • 推定のための計算が面倒(多重積分の計算が含まれる) C-1次の多重積分
ロジットモデル • ecの分布に標準Gumbel分布を仮定 標準Gumbel分布 確率密度関数:
C=2だと、 対数オッズ比 ロジスティック回帰モデルと同じモデル
ロジットモデル • 共変量 Z
分析事例(古川他(2003)より引用) • 6種類のオレンジジュース • 地域ブランド • シトラス・ヒルズ • ミニッツ・メイド • プライベートブランド • トロピカーナ・レギュラー • トロピカーナ・プレミアム • 説明変数 • ブランドロイヤルティ、新聞広告、 • 通常価格、値引き
分析モデルと推定結果 時点tでの、消費者nのブランドjに対する効用 ブランド力
モデルの評価、説明変数の選択 • 回帰モデルとほぼ同じ • 決定係数 • 調整済み決定係数 • AICなどの情報量規準 • 判別分析とみなしての誤判別率