1 / 47

ロジスティック回帰分析 with the assistance of Mr. M. Torii

ロジスティック回帰分析 with the assistance of Mr. M. Torii. 二値データの回帰分析法. 規準変数が二値の場合の 回帰分析. 「成功・失敗」を原因系の変数で予測 「発症・非発症」を原因系の変数で予測 「賛成・反対」を原因系の変数で予測 「賛成・どちらでもない・反対」を「賛成する・賛成しない」の二値に落として原因系の 変数で予測. 例:心疾患の発症. 出展:丹後他 (1996) ロジスティック回帰分析 原典 (Truett et. al. 1967) n=2187,  男性 規準変数

paul2
Download Presentation

ロジスティック回帰分析 with the assistance of Mr. M. Torii

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ロジスティック回帰分析with the assistance of Mr. M. Torii 二値データの回帰分析法

  2. 規準変数が二値の場合の回帰分析 • 「成功・失敗」を原因系の変数で予測 • 「発症・非発症」を原因系の変数で予測 • 「賛成・反対」を原因系の変数で予測 • 「賛成・どちらでもない・反対」を「賛成する・賛成しない」の二値に落として原因系の変数で予測

  3. 例:心疾患の発症 • 出展:丹後他(1996)ロジスティック回帰分析原典(Truett et. al. 1967) • n=2187, 男性 • 規準変数 • 冠状動脈性疾患の発症(12年後に発症したかどうか) • 説明変数 • 年齢 • コレステロール • 血圧 • 相対体重 • ヘモグロビン • 喫煙 • ECG所見

  4. 分析結果

  5. 普通に回帰分析してはいけないのか • してはいけない • 0・1変数を連続変数で予測するというモデルに無理がある • y^=0.8, 1.5, -0.4のような予測値はどのように解釈すればよいか不明

  6. では,どう考えるか • 原因系変数が結果の生起確率P(Y=1)に影響すると考えるのが自然 • P(Y=1)=a+bxはどうか? • ダメ • a+bxは区間[0,1]に収まらないことがある • 0.5→0.6とするための努力と0.85 → 0.95とするための努力には違いがある

  7. では,どうするか • そこで,生起(成功)確率を支配する実力という潜在変数(心理学的連続体)があり,それが正規分布すると仮定する • さらに,その潜在変数が原因系の変数(説明変数)から影響を受けることを想定する

  8. 原因系の変数が実力に影響する 実力 失敗する確率 成功する確率

  9. 実力と成功確率 成功確率:50%⇒60% 成功確率:85%⇒95% 実力の増分:0.25 実力の増分:0.60

  10. 正規分布のロジット近似

  11. ロジスティック回帰モデル 一般にある現象の発生する確率(割合)pを、その現象の生起を説明するために観測された変数群               で説明しようと考える場合、                 という状態のもとで現象が生起するという条件付き確率を   で表し、これを、 という関数Fを用いてモデル化する。

  12. ロジスティック回帰モデル_2 つぎのFを用いてモデル化: 

  13. ロジット(logit)

  14. オッズ(odds)

  15. オッズ比(odds ratio)

  16. 心疾患の例

  17. なぜオッズ比か • オッズ(odds) とは比のこと • オッズ比...比の比 • なぜ「比」だけではダメか

  18.     A薬 B薬 比  治癒  90 99 0.99/0.90=1.1 未治癒 10 1 0.01/0.10=0.1     A薬 B薬  治癒  50 55 0.55/0.50=1.1 未治癒 50 45 0.45/0.50=0.9 ? ?

  19. 解説 • 薬の効きを治癒率の比と未治癒率の比でみたものとが異なるのは矛盾 • 100名中治癒した割合は1割違うだけであるが,90→99と50→55とは評価は異なるべきであろう • では,未治癒率で見ればよいということになるかもしれないが,数値が治癒率と未治癒率が入れ替わっているきは同じ問題が起こる

  20. オッズ比でみると • 治癒率のオッズ比は未治癒率のオッズ比の逆数 • 治癒率のオッズ比=2未治癒率のオッズ比=0.5 • 1の近くでの変化は中庸での変化より高く評価される

  21.     A薬 B薬 オッズ比  治癒  90 99 未治癒 10 1     A薬 B薬  治癒  50 55 未治癒 50 45

  22. 補足 -種々のモデル式- • プロビット回帰モデル • complementary log-log回帰分析 • ロジスティック回帰分析 ⇒標準正規分布関数 ⇒二重指標関数 ⇒ロジスティック関数

  23. 1.0 p 二重指数関数 (double exponential function) ロジスティック関数 (logistic function) 0.5 Z 標準正規分布関数 (standardized normal distribution function) 0.0 p:確率値 Z:変数の線形な合成変数

  24. 近似について • 二重指数関数とロジスティック関数は標準正規分布関数の近似 • ロジスティックが一般的だが,これといった理由はない • オッズ比との相性のよさ • どの近似を採用しても,データが存在する説明変数xの範囲の中では違いは小さい • しかし,外挿するときは注意が必要 • 感度分析...3種類の関数で推定してみて大きな差がないことを確認する

  25. 具体的事例とSASによる分析

  26. 1986年NASAスペースシャトルCHALLENGER号爆発事故1986年NASAスペースシャトルCHALLENGER号爆発事故 • 事故調査班は原因は「O-ring」という部品の故障だと断定 • また、調査班は事故につながる重要な要因として温度を取り上げている • 過去のデータから、当時の温度から故障率を予測するとどのような結果になるか?

  27. 過去23回のスペースシャトル打ち上げ時の温度と  「O-ring」故障数(全6個中)過去23回のスペースシャトル打ち上げ時の温度と  「O-ring」故障数(全6個中)

  28. 「故障数」は正規分布ではない

  29. 温度と故障率の散布図

  30. SASプログラム- proc logistic- OPTIONS NOCENTER PS=54 LS=90; DATA d1; INPUT num nf no temp @@; CARDS; 1 2 6 53 2 0 6 66 3 0 6 68 4 1 6 70 5 0 6 75 6 0 6 78 7 1 6 57 8 0 6 67 9 0 6 69 10 1 6 70 11 2 6 75 12 0 6 79 13 1 6 58 14 0 6 67 15 0 6 70 16 0 6 72 17 0 6 76 18 0 6 81 19 1 6 63 20 0 6 67 21 0 6 70 22 0 6 73 23 0 6 76 ; PROC LOGISTIC DATA=d1; MODEL nf/no = temp / SCALE=NONE COVB PLRL LACKFIT; OUTPUT OUT=d2 C=COOK; PROC PRINT DATA=d2; RUN;

  31. Details • MODEL nf/no = temp / SCALE=NONE PLRL LACKFIT;OUTPUT OUT=d2 C=COOK; • 従属変数に「故障数/全体の数」を指定 • SCALE=NONE…適合度 • PLRL…オッズ比とその区間推定 • LACKFIT…いくつかのデータをまとめて,モデルによる予測頻度とデータの頻度との比較 • C=COOK Cook統計量による回帰診断 • 分析に過度の影響があるobservationの同定

  32. 分析の吟味

  33. モデルの適合度を調べる 統計量=デビアンス(のp値) SAS出力:適合度ロジスティック関数と線型回帰モデルのよさを吟味 Deviance and Pearson Goodness-of-Fit Statistic Pr > Criterion DF Value Value/DF Chi-Square Deviance 21 18.0863 0.8613 0.6435 Pearson 21 29.9803 1.4276 0.0924 Number of events/trials observations: 23 大きいほど良い

  34. SAS出力:偏回帰係数 exp(-0.1156) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 5.0850 3.0525 2.7751 0.0957 . . temp 1 -0.1156 0.0470 6.0435 0.0140 -0.441494 0.891 回帰式 Estimated Covariance Matrix Variable INTERCPT TEMP INTERCPT 9.3176671947 -0.142565536 TEMP-0.142565536 0.002211241

  35. SAS出力:オッズ比の区間推定 Profile LikelihoodConfidence Limits Odds Variable Unit Ratio Lower Upper temp 1.0000 0.891 0.809 0.970

  36. SAS出力:予測の「よさ」をみる Association of Predicted Probabilities and Observed Responses Concordant = 65.4% Somers' D = 0.382 Discordant = 27.1% Gamma = 0.413 Tied = 7.5% Tau-a = 0.047 (1161 pairs) c = 0.691

  37. 順位相関係数 NF’と推定確率の順位相関係数をとったものがassociationの指標

  38. 定義式

  39. OBS NUM NF NO TEMP COOK 1 1 2 6 53 0.29503 2 2 0 6 66 0.02790 3 3 0 6 68 0.02110 4 4 1 6 70 0.11088 5 5 0 6 75 0.01097 6 6 0 6 78 0.00799 7 7 1 6 57 0.00340 8 8 0 6 67 0.02395 9 9 0 6 69 0.01894 10 10 1 6 70 0.11088 11 11 2 6 75 1.41421 12 12 0 6 79 0.00712 13 13 1 6 58 0.00002 14 14 0 6 67 0.02395 15 15 0 6 70 0.01721 16 16 0 6 72 0.01443 17 17 0 6 76 0.00993 18 18 0 6 81 0.00555 19 19 1 6 63 0.02428 20 20 0 6 67 0.02395 21 21 0 6 70 0.01721 22 22 0 6 73 0.01322 23 23 0 6 76 0.00993 COOKの統計量 • 当分析に対する影響度の大きなobservation を同定する • No.11 (t=75) は容疑者 • 分析者に都合のよいデータ除去は,慎むべき

  40. 分析結果の利用

  41. 回帰式の利用Challenger が爆発したとき(t=31)の故障確率は? • 回帰式のモデル: • 温度が31。Fでの故障確率の点推定値 • 6つの「O-ring」のうち少なくとも1つが故障する確率

  42. 95%信頼区間

  43. 一つの問題点 • t=31は,分析に使ったデータ範囲を越えている • これを外挿(extrapolation) という • 外挿をした場合は,その結果が採用した関数Fに大きく依存して変化することが少なくない.選んだ関数の理論的根拠が希薄な場合はなおさら

  44. 対策はどうするのか? • 他に考えられる関数を適用してみて、結果がどの程度異なるかという感度分析をするのがよい。 • この場合に考えられる候補としては • プロビット回帰分析 • complementary log-log回帰分析

  45. 6個のうち少なくとも1つが 故障する確率 感度分析 表2.温度31Fでの予測確率 Logistic probit comp.log-log 0.82 0.97 0.70 p(31) 0.12-0.99 95% CI 0.16-0.99 0.19-1.00 Pr(少1|6) 1.000 0.999 1.000 0.71-1.00 95% CI 0.65-1.00 0.54-1.00

  46. まとめ • ロジスティック回帰分析は従属変数が二値変数の時に用いる • 3件法のデータを二値変数として分析することもある • 外挿の時は感度分析も忘れない • プロビット回帰分析 • Comp.log-log回帰分析   • SAS,SPSS等で分析可能

  47. 文献 • 丹後・山岡・高木(1996).ロジスティック回帰分析.朝倉書店

More Related