420 likes | 611 Views
科学研究費シンポジウム: 因子分析と共分散構造分析に関する諸問題 平成 13 年 11 月 9 ~ 10 日 於:統計数理研究所 Organized by Professor Manabu Sato. 因子分析と共分散構造分析における理論と応用について. 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp. Missing Data in SEM. 欠測値のあつかい. 今までの方法. Listwise Deletion 一つでも欠測のあるオブザベーションは,分析から外して分析する Pairwise Deletion
E N D
科学研究費シンポジウム: 因子分析と共分散構造分析に関する諸問題 平成13年11月9~10日 於:統計数理研究所 Organized by Professor Manabu Sato 因子分析と共分散構造分析における理論と応用について 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp
Missing Data in SEM 欠測値のあつかい
今までの方法 • Listwise Deletion • 一つでも欠測のあるオブザベーションは,分析から外して分析する • Pairwise Deletion • 相関係数を計算する際,そのペアにだけ欠測のないオブザベーションをすべて用いる • Imputation • 欠測値を何らかの方法による推定値でおきかえて欠測のないデータセットにする • 平均 • EM algorithmによる最尤推定値 • 回帰分析
今までの方法は • Listwise Deletion (LD) • 最も一般的な方法 • 捨てられるデータがもったいない...統計的推測の精度が低くなる • 欠測が多いと分析できないことがある • MCARである必要 • Pairwise Deletion (PD) • 相関行列Sの統計的分布が不明 • Sが正定値行列でないことがある • 分析方法はLSぐらいしかない • SE,カイ2乗値・適合度指標,LM検定・ワルド検定などが信頼できない • MCARである必要
今までの方法は_続 • Imputation • 汎用ソフトで実行可能 • データの分布,相関行列の分布が不明 • Mean Imputation (MI) • 分散が小さくなりすぎる • 分散や共分散を正確に推定できないこの方法はSEMには致命的 • EMによる最尤推定 • MARでよい • 平均ベクトルや相関行列を推定することが最終目的の場合はOK
統計理論から • Missing Completely At Random (MCAR) • どの値が欠測するかは完全にランダムである • LD, PDは,このときのみ使える • Missing At Random (MAR) • どの値が欠測するかはデータに依存してもよいが,欠測値には依存しない • FIMLの適用が薦められる • Nonignorable Missing • どの値が欠測するかが欠測した値に依存する • 欠測のメカニズムにモデリングが必要
MAR: Missing At Random • Rubin (1976)によって定義
1 1 2次元データの例 欠 測
入学者のみr’=0.3 不合格者 合格者 MARの例 卒論 受験生全員r=0.6 × × × × × × × × × × × × × × × × × × × × × 入学試験
SEMでの推測 • SEMではObserved Data Likelihood に基づく推測をMethod of Full-Information Maximum Likelihood (FIML)と呼んでいる • AMOS4, EQS6, LISREL8.5, M-plus2, Mx • 欠測のパターンが限られている場合,多母集団の同時分析に帰着 • 欠測が一つの変数にしか起こらない場合は2つの母集団
FIMLについて • 計算時間がかかる • 収束しない場合がある • GFIなど,出力しにくい統計量がある • 欠測が多いと最尤法のよさがでないかも
例:6つの心理テストデータ • n=73の完全データを分析 • 30%の欠測値でのFIML • MCAR but LDではデータがなくなる • Wordmeanが低い人のSentenceデータが欠測しているものを作成し分析 • MAR • FIML と LD • Wordmeanが低い人のWordmeanデータが欠測しているものを作成し分析 • Nonignorable missing • FIML と LD
n=73, p=6 完全データ(欠測値なし) 分析1:6つの心理テスト
n=73, p=6 ランダムに欠測(MCAR) 各変数について約30%の欠測 全データでの欠測率=120/438 欠測のない個体=7 出展:AMOSマニュアル 分析2:6つの心理テスト
FIML vs LD • MAR または Nonignorable missing のときにFIMLとLDを比較する • 欠測が多くないならば,LDは実行可能なので • 分析 • 「Sentence」に約30%の欠測があったとき,LDとFIMLのパフォーマンスを比較する • 分析3... MAR • 分析4... Nonignorable missing
分析3のデータ • 欠測のパターン:MAR • Wordmeanが13点以下の被験者を欠測に • 欠測数=24(/73) • Sentence の平均19.3⇒21.6
分析4のデータ • 欠測のパターン:Nonignorable • Sentenceが17点以下の被験者を欠測に • 欠測数=24(/73) • Sentence の平均19.3⇒22.1
分析3:MAR FIML LD
分析4:Nonignorable FIML LD
まとめ • 分析3から • LDでも一変数に関する欠測であれば,因子分析モデルに関しては適合は良いようである • 推定値には無視できないバイアスが生じている • LDは特に因子相関にバイアスが生じている • 分析4から • FIMLは理論的にはMAR用の解析方法であるが,nonignorable の場合でもよいパフォーマンスを示している • FAの場合は,他の観測変数からの欠測の予測精度が高いのかも • LDの推定精度は低い
計画による欠測 • データ • 2020名の黒人の父親にインタビューし,職業と教育歴を尋ねた • 3週間後に2020名からランダムに抽出された384名に再度,職業と教育歴を尋ねた • 欠測のパターン...MCAR • 384名だけで分析してもよいが,残りのサンプル(1672名)を上手く活かせないか? • MARであり,欠測のパターンが少ない場合は,多母集団の同時分析が有効 • 解析はAllison(1987)・Wothke(1999) による
データ 完全データ 欠測データ
多母集団の同時分析:非標準解 完全データのグループ 欠測データのグループ
多母集団の同時分析:標準解 完全データのグループ 欠測データのグループ
specification • 平均構造を導入 • 平均構造をいれないと,母集団ごとに異なった平均を当てはめることになる • 対応するすべての母数を等置する • FIMLで分析すると • いくつかの適合度指標が定義しにくい
比較 • 完全データのみの分析と多母集団の同時分析との比較 • 推定値に大きな差はない • 多母集団の同時分析は精度が高い • 標準誤差が大幅に小さい
まとめ • Missing data, nonresponse data などは無視するのではなく,積極的に分析に取り入れる時代になった • とりあえずは,MAR(Missing At Random) • 欠測する確率が当該変数の値に依存しない • 潜在変数にも依存しない • 当該変数以外の観測変数には依存してもよい • FA では,条件MARが崩れていてもFIMLでそれなりに分析できるかも • 欠測を予測できる変数があるかどうか • 経時データの分析にも有効
(脱落のある)経時データ • 普通の分散分析 • セル度数が不揃いの分析 • Type II, III 平方和 • 実験データのFIML • 欠測のあるSEM • Latent Curve Analysis • 初回のデータが脱落のpredictorになりえる
Further Topic • MCARの検討 • Nonignorable case のモデル化 • SEMの既存の理論すべてが,missing のある場合に拡張できるであろう • 多くの場合はすでにやられている • 非正規性,ニ値データ • 多母集団・平均構造,多段サンプリング