440 likes | 1.16k Views
ロジスティック回帰分析 ~実践編. 行動データ科学研究分野 M1 兼清 道雄. 本日の目的. データをロジスティック回帰分析で分析してみる 主にSPSSを使用 ロジロジは Regression models の中に入っている SASの方がいい気がする 内容(前回,話したものを中心に) パラメータの推定・検定 確率の推定 モデルの適合 モデルの比較. 今日のデータ. 開幕から昨日 (6/10) までの阪神の成績 25 勝 28 敗,借金3,首位とのゲーム差 4.5 , 最下位 従属変数:勝敗 勝ち =1 ,負け =0 説明変数:以下のとおり
E N D
ロジスティック回帰分析~実践編 行動データ科学研究分野 M1 兼清 道雄
本日の目的 • データをロジスティック回帰分析で分析してみる • 主にSPSSを使用 • ロジロジはRegression modelsの中に入っている • SASの方がいい気がする • 内容(前回,話したものを中心に) • パラメータの推定・検定 • 確率の推定 • モデルの適合 • モデルの比較
今日のデータ • 開幕から昨日(6/10)までの阪神の成績 • 25勝28敗,借金3,首位とのゲーム差4.5,最下位 • 従属変数:勝敗 • 勝ち=1,負け=0 • 説明変数:以下のとおり • ヒット数(阪神,相手) • エラー数(阪神,相手) • 初回に点を入れたかどうか(阪神,相手) • 入れた=1,入れなかった=0 • 他にもヒット数の差,エラー数の差などなど
(分析上の)目的 • ヒット数・エラー数やその差などの影響力を見たい • ヒット数・エラー数やその差などから勝つ確率を予測したい • 初回に点をとることが重要と言われるが本当かどうかを検討したい
Model 1 • 説明変数:ヒット数の差 • 阪神が勝つ確率のロジットに対してモデリング
分析手順 • 分析→回帰→二項ロジスティック • 従属変数に「勝敗」 • 共変量に「ヒット数の差」 • 方法は変数選択に使用する • カテゴリは説明変数がカテゴリの場合(後述) • オプション(以下をクリック) • 分類プロット • Hosmer-Lemeshowの適合度 • 推定値の相関行列 • Exp(B)の信頼区間(95%)
パラメータの推定・検定 • 「方程式中の変数」を見る • 「ヒット数の差:数値」の行において • B:偏回帰係数→.326(ワルド検定11.406, p<.01) • Exp(B):指数を取ったもの=オッズ比 • ヒット数の差が1増えるごとに勝つ確率は約1.4倍となる • SPSSはオッズ比の区間推定も出してくれる • Exp(B)の信頼区間をチェックすることで • ヒット数の差が1増えるごとに勝つ確率は約1.1~1.7倍となる
その他の出力について • モデル係数のオムニバス検定 • モデル内の説明変数を入れる意味があるか?の検定 • Model 1では「ヒット数の差」の効果が有意かどうかの尤度比検定と同じ • モデルの要約 • -2対数尤度 • これが小さいほど当てはまっている • Cox & Snell R^2, Nagelkerke R^2 • 普通の回帰分析でいう「決定係数」となる • Cox & Snell R^2は最大値が1とならない→修正版がNagelkerke R^2 • HosmerとLemeshowの検定(前回スライド32) • モデルがデータに適合しているかどうか? • 有意確率が.341なので,まあまあ適合していると言える • 相関行列 • 偏回帰係数同士の相関
モデル係数のオムニバス検定 • 以下のモデルの尤度比検定 • -2[log( Model 0の尤度 ) - log( Model 1の尤度 )] • 有意なら説明変数xdifhitを入れる必要あり!
Model 1の予測式 • 以下のとおり • 確率予測用に直すと
確率の推定 • 以下の式に「ヒット数の差」を代入すればよい • 現在あるデータに対しての予測確率は,保存→[予測値]確率をクリックすれば保存される
代入 確率の区間推定 • 5本差がついたときの阪神が勝つ確率の区間推定 • ロジットのばらつきを推定 • (標準誤差)^2 = Var(偏回帰係数の推定値)
確率の区間推定 • 5本差がついたときの阪神が勝つ確率の区間推定 • ロジットの区間推定 • 確率に変換すると[.69, .81] • ヒットが5本差ついたときに阪神が勝つ確率は69%~81%
ここまでおさらい • パラメータの推定・検定 • 確率の推定 • モデルの適合
ここから • 残差分析・影響診断 • カテゴリカルな説明変数の場合 • モデルの比較 • 変数選択
残差分析・影響診断 • 保存→ • [影響力]Cookの統計量・てこ比の値・DfBeta • [残差]標準化されていない~逸脱 • オプション→ • [残差のケースごとの出力] • 外れ値 (デフォルトは2) • 絶対値が2以上だとあやしい:カテゴリカルp159) • 全てのケース
Model 1に対して残差分析 • 外れ値として試合id46が選ばれる • 標準化残差が-2.412で絶対値を取ると2以上 • 見ると,5月30日の阪神-中日戦である • 下柳が好投,8回を1安打に抑える • 打線も7本のヒット!! • でも・・・点は入らず・・・ • 9回,ジェフ,1OUT,1塁で投前犠打を1塁へ悪送球 • 1OUT,2,3塁から代打大西がサヨナラ犠牲フライ・・・ • ノーヒットで1点献上 • ヒット数の差は6本だけど,負けてしまった日
Model 2(カテゴリカルな説明変数) • 説明変数:ヒット数の差&初回に得点有か無か • 阪神が勝つ確率のロジットに対してモデリング タイガースが初回に得点!だと1 相手が初回に得点・・・だと1
手順 • 共変量に入れたあと,「カテゴリ」をクリック • 共変量からカテゴリ共変量へ移動 • 「対比の変更」で「指標」(デフォルト)を選び参照カテゴリ「最初」をクリック→「変更」をクリック
アウトプット • カテゴリ変数コーディングを参照する • 今回は初回に得点すれば1というコーディング • 結果は「方程式中の変数」 • 双方とも非有意(.863, -.221; p=.269, .789) • 初回に得点することは,言われているほど勝ち負けに影響しないようだ • どのチームも中継ぎ・抑えに不安? • 吉野・安藤・ジェフ・リガンの奮起に期待!あとモレルも
モデルの比較 • Model 1(ヒット数の差のみ)とModel 2(初回得点も含む)ではどちらが良いか? • 尤度比検定によるモデル比較 • 双方の-2対数尤度とパラメータの数に注目
尤度比検定 • 対数尤度の差に-2を掛けたものが自由度がパラメータ数の差であるχ2分布に従う • 帰無仮説はModel 1 = Model 2 • Model 1:「-2対数尤度」53.375,「パラ数」2つ • Model 2:「-2対数尤度」52.109, 「パラ数」4つ • 尤度比検定統計量 53.375-52.109=1.266(df=2) • 有意確率はp=0.53 • Model 1とModel 2は違うとは言えないパラメータが少ないほうが良いのでModel 1
変数選択 • 強制投入法 • SPSS自身は変数選択しません • 変数増加法 • 変数少→基準に基づき変数を増加→変数大 • 変数減少法 • 変数大→基準に基づき変数を減少→変数少 • この方法はカテゴリカルp176に例とともに載っている
変数選択 • 基準は3つ • 条件付・尤度比・ワルド • それらの有意確率をもとに選択する • オプション→[ステップワイズにおける確率]で変更可
SPSSだと • デビアンスが出ない! • SASはMODELステートメントにオプションとしてaggregate scale=noneをつけることで出力される • AICも出ない! • SAS8.2ではデフォルトで出てくる • プロフィール尤度による信頼区間が出せない! • SASだとMODELステートメントにオプションとしてCLODDS=BOTHとかCLPARM=BOTHで,ワルドによるものもプロフィール尤度によるものも出る • 二値データの1に対するモデリングのみ! • SASのデフォルトは0に対するモデリングだが,PROC LOGISTICの後にDESCと付ければ1に対するモデリングになる
デビアンスに対する対処法 • 連続変数→カテゴリ変数と指定して,飽和モデルを自分で作る • 飽和モデルの-2対数尤度をメモっておく • この-2対数尤度と当該モデルを比較したものがデビアンス
AICに対する対処法 • AIC = -2(対数尤度 - パラメータ数)なので,手計算が可能
AICを用いてモデルを比較しよう! • 尤度比検定では,比較する二つのモデルに抱合関係がないといけない • 切片と傾きのモデル v.s. 切片のみのモデル • AICはそのような仮定を必要としない
参考文献 • SPSSによる多変量データ解析の手順(第2版) • 石村 貞夫著 (2001) 東京図書 • SPSSのサイトにサンプルデータ有!(このシリーズ全ての) • http://www.spss.co.jp/support/sample.html • 青木先生のサイト(χ2分布の確率を出すのに有用) • http://aoki2.si.gunma-u.ac.jp/CGI-BIN/distribution.html • カテゴリカルデータ解析入門 • Alan Agresti 著 渡邉ら訳 (2003) サイエンティスト社 • ロジスティック回帰分析 • 丹後俊郎・山岡和枝・高木晴良 著 (1996) 朝倉書店 • ロジスティック回帰に関する海外のサイト • http://www.uwm.edu/~edari/methstat/logistic.htm • http://www2.chass.ncsu.edu/garson/pa765/logistic.htm
確率の区間推定 • 推定されたロジットのバラツキ • ロジットの信頼率95%の信頼区間 • ex.) 男性30歳のロジットの区間推定 (1.20,2.00) 前回から修正あり!!