580 likes | 836 Views
不完全データの処理. 立教大学経営学部 山口和範. 今日の話. 不完全データの処理 不完全情報に基づく推定 EM アルゴリズムの利用と最適化 潜在変数モデル 潜在クラスモデル、混合モデル、 … 多重代入法と EM アルゴリズム 傾向スコアとその拡張. 欠測データへの考えられる対処法. 欠測を含むケースの削除: Complete Case (CC) 法 分析結果の偏りを招く可能性, 一般的には × ペアワイズ法: Pairwise Deletion
E N D
不完全データの処理 立教大学経営学部 山口和範
今日の話 • 不完全データの処理 • 不完全情報に基づく推定 • EMアルゴリズムの利用と最適化 • 潜在変数モデル • 潜在クラスモデル、混合モデル、… • 多重代入法とEMアルゴリズム • 傾向スコアとその拡張
欠測データへの考えられる対処法 • 欠測を含むケースの削除: Complete Case (CC) 法 分析結果の偏りを招く可能性, 一般的には× • ペアワイズ法: Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを使って,平均や相関・共分散を推定 • 欠測データの推定: Imputation Method 擬似的な完全データの作成(平均値推定,回帰推定,・・・) • 統計モデルに基づく方法 最尤法(EMによる)
手にしているデータとは? ; and 研究対象変数 欠測指標変数
response variable missing indicator variable the joint distribution of x and r the marginal distribution of the observed data
欠測のモデルf (x,r)に関する2つのモデル • Selection models f ( x , r ) = f ( x )P ( r | x ) どの値が 欠測するかは,対象変数 x の実現値から 確率的に決まるとするモデル • Pattern mixture models f ( x , r ) = f ( x | r )P ( r ) 欠測パターン毎に,別々の異なる xの確率モデルが 想定され, 観測データ行列は,欠測パターン毎の 生起確率を重みとする混合分布の実現値と考えるモデル
Selection Model v.s. Pattern Mixture Model • Selection Model • MARの仮定の下では,使いやすいモデル • 母集団を一つの分布法則でモデル化できる • 現状でよく使われている • NMARの下では,欠測発生のモデル化の適否が 結果を左右する • Pattern Mixture Model • NMARの下では,扱いやすいモデル • 欠測パターン毎の分布法則が知りたいのであれば適当なモデルといえる • NMARの下で,欠測発生のモデル化をしないで済む。 欠測パターンと目的パラメータの間で,何らかの制約式 など設定する必要がでてくる。
欠測発生メカニズムへの仮定(1) • Missing Completely at Randam (MCAR) P( r | x ) = P ( r ) どの変数の値が欠測するかはもとの観測ベクトル x とは無関係 観測データと欠測指標の同時分布は, Ex. P(r=(1,1,・・・,1))=75%,P(r=(1,1,・・・,0))=10%,・・・
MCARの下では,発生メカニズムは無視できる No systematic difference between complete cases and incomplete cases CC 法, 平均値の代入 unbiased estimates of underlying marginal means/profiles
欠測発生メカニズムへの仮定(2) • Missing at Random (MAR) P( r | x ) = P ( r | xobs ) ある変数が欠測する確率 は xobsが与えられた下で, xmisとは無関係 the joint distribution of the observed data 局所的に,MCARが成立
x10 r10 x12 , x14 Growth Curve Data (Potthoff & Roy,1964) x8 means the missing produced through a MAR mechanism by Little(1987)
Missing at Random (MAR) • 観測変数xobsで,欠測変数xmisと欠測指標変数rとの関係を 説明できれば,欠測変数と欠測指標変数との関係はなくなる。 • 欠測変数xmisと欠測指標変数rとの関係を説明する観測変数xobs が存在しそれらを適切に解析に組み込めば, 欠測データによって生じる偏りはなくなる。 • 予め共変量など欠測変数xmisと関連のある観測変数を含めておくことで, MAR の仮定の成立は不自然ではなくなる。
MAR が成立すれば, non-response bias は補正できる • CC(Complete-case)法 不完全ケースをすべて削除 層別と重み付け Stratification & Weighting 補正のための各層で,完全に観測されたケースを観測率の逆数で重み付ける
局所的にMCARが成立するような補正セルをどうやって見つけるか?局所的にMCARが成立するような補正セルをどうやって見つけるか? • Observed variables • Response Propensity スコアによる層別 • Predicted Mean による層別
Response Propensity スコア Probability of missing based on covariate. Missing at Random Rosenbaum & Rubin (1983) and approximately
Propensity スコアによる層別手順 • 欠測指標変数を観測変数でロジスティック回帰やプロビット回帰( Propensityスコア)する • 前ステップでのPropensityスコアの推定値を各ケースで求める • Propensityスコアの推定値の大きさでカテゴリー化し,層別を行う * Propensityスコアの推定値は,各ケースのその大きさによるグループ分けには適しているが,そのまま各ケースの重みとして利用することは不適切
欠測データへの考えられる対処法 • 欠測を含むケースの削除: Complete Case (CC) 法 MCARのみ可, MARで層別による補正 • ペアワイズ法: Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを使って,平均や相関・共分散を推定 • 欠測データの推定: Imputation Method 擬似的な完全データの作成(平均値推定,回帰推定,・・・) • 統計モデルに基づく方法 最尤法 ベイズ法
ペアワイズ法: Pairwise Deletion • 変数毎に利用できるデータを使って,平均・分散を推定 • 変数対毎に利用できるデータを使って,相関・共分散を推定
ペアワイズ法 • 標本相関行列の統計的分布が不明 • 標本相関行列が正定値行列でないことがある • 相関の高いデータ行列の場合は,とくに不適 • 単なるCC法(削除法)より悪い結果となることも
Imputation(代入法) • 欠測データに何らかの値を代入 • 擬似的な完全データの作成 • Marginal or Conditional imputation • Explicit or Implicit model imputation • Deterministicor Stochastic imputation (using random numbers) • Univariate or Multivariate imputation • Singleor Multiple imputation
2種類の尤度 • Full loglikelihood – 欠測発生メカニズムをモデル化 • Partial loglikelihood –欠測発生メカニズムを無視 * より単純な partial likelihood を使っても良い条件とは ?
Ignorability Rubin(1977) モデルの推測に際して,欠測発生メカニズムを無視して よい条件とは ? • Sufficient conditions for ignorability • MAR • 欠測発生メカニズムを規定する母数 (f) とデータの分布の母数(q) は無関係 • 上記の MAR のみが成立していれば,ML法 Lpartial でも適切ではあるが,完全に efficient とはならない • MAR は key condition • Richer the observed data xobs , the more plausible the MAR assumption • NMAR は more plausible, しかし,特定の欠測発生メカニズムモデルを正当化することは難しい
Partial loglikelihood –欠測発生メカニズムを無視 Missing at Random has much simpler form than
Excelで実習 • 中途打ち切りデータの推定 • の最大化 • EMアルゴリズムによる方法
EM algorithm • A general algorithm for incomplete data problems that provides an interesting link with imputation methods • (k) converges to a maximum likelihood estimate of q based on Lpartial , if a unique finite MLE of q exists.
DLR(1977) • E-step :To calculate the conditional expectation ofLc(q) • M-step :To findq which maximize the conditional expectation calculated in the previous E-step
EM の適用(Ignorable case) • 欠測を含む多変量正規モデル • 欠測を含む多変量回帰モデル • 尺度混合正規モデルの下でのロバスト推定 • Logistic 回帰( missing covariates) • Unbalanced repeated-measures models with structured covariance and with missing data • 潜在構造モデル
E-step : Sufficient statistics
E-step : Sufficient statistics
MARでない場合の影響 • 数値実験
欠測モデル(MARでない場合) x1 x2 m2
欠測モデル(MARの場合) x1 x2 m1
まとめ • 欠測データを解決する unique solution はない • いくつかの方法を試して,sensitivitycheck する • ML 法は,MARであればOK • MARでなくても、場合によっては十分な補正を行なう
Imputation(代入法) • 欠測データに何らかの値を代入 • 擬似的な完全データの作成 • Marginal or Conditional imputation • Explicit or Implicit model imputation • Deterministicor Stochastic imputation (using random numbers) • Univariate or Multivariate imputation • Singleor Multiple imputation
Mean Imputation (Unconditional) 単純な平均値の代入 • Available cases for each mean • MCARの下でも分散を過小評価 検定や信頼区間の結果が信用できない
Mean Imputation (Conditional) 回帰による推定値の代入 • Conditional on observed values in case Regress Xp on (X1 ,X2,・・・,Xp-1) Impute predictions パーセント点,相関係数,分散, 共分散などデータの線形関数以外の統計量の推定は偏る
Mean Imputation分布(ばらつき)を再現しない • Marginal distributions and associations distorted ( no residual variance) • Conditional better than unconditional • Standard errors from filled-in data too small • no residual variance • n actually smaller • uncertainty of prediction Stochastic Imputation
Cold deck法と Hot deck法(パネルデータ) • Cold deck 法 代入値を同一人物の他の時点のデータから探す • Hot deck 法 代入値を同一時点の他の人物(ドナー)のデータから探す 代入値を提供するドナーケースは,補正セル内あるいは 共変量とのマッチングで決める Exact matching v.s. Random matching ランダムホットデック法
Deterministic imputation(非確率的代入) • Hot deck and Cold deck methods • Overall (unconditional) mean • Group (adjusted cell) mean • Predictive mean by regression model More accuracy, but distort the distribution The distribution becomes too peaked and the variance is underestimated
Stochastic imputation確率的代入 • 非確率的代入法+確率的要素 ばらつきを保持する(代入値の分散・共分散を意識) EX. • Add a random residual from N (m ,s 2 ) StochasticPredictive mean imputation 回帰による推定値+乱数による誤差 • Impute the value of a randomly selected case Random hot deck method