1 / 42

因子分析と共分散構造分析における理論と応用について

科学研究費シンポジウム: 因子分析と共分散構造分析に関する諸問題 平成 13 年 11 月 9 ~ 10 日 於:統計数理研究所 Organized by Professor Manabu Sato. 因子分析と共分散構造分析における理論と応用について. 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp. Missing Data in SEM. 欠測値のあつかい. 今までの方法. Listwise Deletion 一つでも欠測のあるオブザベーションは,分析から外して分析する Pairwise Deletion

ulema
Download Presentation

因子分析と共分散構造分析における理論と応用について

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 科学研究費シンポジウム: 因子分析と共分散構造分析に関する諸問題 平成13年11月9~10日 於:統計数理研究所 Organized by Professor Manabu Sato 因子分析と共分散構造分析における理論と応用について 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp

  2. Missing Data in SEM 欠測値のあつかい

  3. 今までの方法 • Listwise Deletion • 一つでも欠測のあるオブザベーションは,分析から外して分析する • Pairwise Deletion • 相関係数を計算する際,そのペアにだけ欠測のないオブザベーションをすべて用いる • Imputation • 欠測値を何らかの方法による推定値でおきかえて欠測のないデータセットにする • 平均 • EM algorithmによる最尤推定値 • 回帰分析

  4. 今までの方法は • Listwise Deletion (LD) • 最も一般的な方法 • 捨てられるデータがもったいない...統計的推測の精度が低くなる • 欠測が多いと分析できないことがある • MCARである必要 • Pairwise Deletion (PD) • 相関行列Sの統計的分布が不明 • Sが正定値行列でないことがある • 分析方法はLSぐらいしかない • SE,カイ2乗値・適合度指標,LM検定・ワルド検定などが信頼できない • MCARである必要

  5. 今までの方法は_続 • Imputation • 汎用ソフトで実行可能 • データの分布,相関行列の分布が不明 • Mean Imputation (MI) • 分散が小さくなりすぎる • 分散や共分散を正確に推定できないこの方法はSEMには致命的 • EMによる最尤推定 • MARでよい • 平均ベクトルや相関行列を推定することが最終目的の場合はOK

  6. 統計理論から • Missing Completely At Random (MCAR) • どの値が欠測するかは完全にランダムである • LD, PDは,このときのみ使える • Missing At Random (MAR) • どの値が欠測するかはデータに依存してもよいが,欠測値には依存しない • FIMLの適用が薦められる • Nonignorable Missing • どの値が欠測するかが欠測した値に依存する • 欠測のメカニズムにモデリングが必要

  7. MAR: Missing At Random • Rubin (1976)によって定義

  8. MARとFIML

  9. MARについての補足

  10. 1 2次元データの例 欠 測

  11. 欠測の分布

  12. 入学者のみr’=0.3 不合格者 合格者 MARの例 卒論 受験生全員r=0.6 × × × × × × × × × × × × × × × × × × × × × 入学試験

  13. r‘から r への修正公式

  14. 多変量正規母集団での推測_1

  15. 多変量正規母集団での推測_2

  16. SEMでの推測 • SEMではObserved Data Likelihood に基づく推測をMethod of Full-Information Maximum Likelihood (FIML)と呼んでいる • AMOS4, EQS6, LISREL8.5, M-plus2, Mx • 欠測のパターンが限られている場合,多母集団の同時分析に帰着 • 欠測が一つの変数にしか起こらない場合は2つの母集団

  17. FIMLについて • 計算時間がかかる • 収束しない場合がある • GFIなど,出力しにくい統計量がある • 欠測が多いと最尤法のよさがでないかも

  18. 例:6つの心理テストデータ • n=73の完全データを分析 • 30%の欠測値でのFIML • MCAR but LDではデータがなくなる • Wordmeanが低い人のSentenceデータが欠測しているものを作成し分析 • MAR • FIML と LD • Wordmeanが低い人のWordmeanデータが欠測しているものを作成し分析 • Nonignorable missing • FIML と LD

  19. n=73, p=6 完全データ(欠測値なし) 分析1:6つの心理テスト

  20. n=73, p=6 ランダムに欠測(MCAR) 各変数について約30%の欠測 全データでの欠測率=120/438 欠測のない個体=7 出展:AMOSマニュアル 分析2:6つの心理テスト

  21. 分析1:完全データの分析結果

  22. 分析2:MCARデータの分析結果

  23. FIML vs LD • MAR または Nonignorable missing のときにFIMLとLDを比較する • 欠測が多くないならば,LDは実行可能なので • 分析 • 「Sentence」に約30%の欠測があったとき,LDとFIMLのパフォーマンスを比較する • 分析3... MAR • 分析4... Nonignorable missing

  24. 分析3のデータ • 欠測のパターン:MAR • Wordmeanが13点以下の被験者を欠測に • 欠測数=24(/73) • Sentence の平均19.3⇒21.6

  25. 分析4のデータ • 欠測のパターン:Nonignorable • Sentenceが17点以下の被験者を欠測に • 欠測数=24(/73) • Sentence の平均19.3⇒22.1

  26. 分析3:MAR FIML LD

  27. 分析4:Nonignorable FIML LD

  28. 分析結果のまとめ:推定値の比較

  29. 分析結果のまとめ:SEの比較

  30. まとめ • 分析3から • LDでも一変数に関する欠測であれば,因子分析モデルに関しては適合は良いようである • 推定値には無視できないバイアスが生じている • LDは特に因子相関にバイアスが生じている • 分析4から • FIMLは理論的にはMAR用の解析方法であるが,nonignorable の場合でもよいパフォーマンスを示している • FAの場合は,他の観測変数からの欠測の予測精度が高いのかも • LDの推定精度は低い

  31. 計画による欠測 • データ • 2020名の黒人の父親にインタビューし,職業と教育歴を尋ねた • 3週間後に2020名からランダムに抽出された384名に再度,職業と教育歴を尋ねた • 欠測のパターン...MCAR • 384名だけで分析してもよいが,残りのサンプル(1672名)を上手く活かせないか? • MARであり,欠測のパターンが少ない場合は,多母集団の同時分析が有効 • 解析はAllison(1987)・Wothke(1999) による

  32. データ 完全データ 欠測データ

  33. 完全データの分析:非標準解

  34. 完全データの分析:標準解

  35. 多母集団の同時分析:非標準解 完全データのグループ 欠測データのグループ

  36. 多母集団の同時分析:標準解 完全データのグループ 欠測データのグループ

  37. specification • 平均構造を導入 • 平均構造をいれないと,母集団ごとに異なった平均を当てはめることになる • 対応するすべての母数を等置する • FIMLで分析すると • いくつかの適合度指標が定義しにくい

  38. 比較 • 完全データのみの分析と多母集団の同時分析との比較 • 推定値に大きな差はない • 多母集団の同時分析は精度が高い • 標準誤差が大幅に小さい

  39. まとめ • Missing data, nonresponse data などは無視するのではなく,積極的に分析に取り入れる時代になった • とりあえずは,MAR(Missing At Random) • 欠測する確率が当該変数の値に依存しない • 潜在変数にも依存しない • 当該変数以外の観測変数には依存してもよい • FA では,条件MARが崩れていてもFIMLでそれなりに分析できるかも • 欠測を予測できる変数があるかどうか • 経時データの分析にも有効

  40. (脱落のある)経時データ • 普通の分散分析 • セル度数が不揃いの分析 • Type II, III 平方和 • 実験データのFIML • 欠測のあるSEM • Latent Curve Analysis • 初回のデータが脱落のpredictorになりえる

  41. Further Topic • MCARの検討 • Nonignorable case のモデル化 • SEMの既存の理論すべてが,missing のある場合に拡張できるであろう • 多くの場合はすでにやられている • 非正規性,ニ値データ • 多母集団・平均構造,多段サンプリング

  42. Thank you for your attention

More Related