280 likes | 534 Views
文献紹介 II. 行動データ科学研究分野 B4 里村裕紀. 本日のお題目. Mooijaart. A. (1985). Factor analysis for non-normal variables. Psychometrika , 50 , 323-342. この文献のミソ. 変数が正規分布に従わないとする 歪度といった高次の積率がゼロでなくなる 因子分析のパラメータ推定に用いてみる 解の不定性がなくなった (回転をかける必要性がなくなった). Formulation of the Model.
E N D
文献紹介II 行動データ科学研究分野 B4 里村裕紀 文献紹介II
本日のお題目 • Mooijaart. A. (1985). Factor analysis for non-normal variables. Psychometrika, 50, 323-342. 文献紹介II
この文献のミソ • 変数が正規分布に従わないとする 歪度といった高次の積率がゼロでなくなる 因子分析のパラメータ推定に用いてみる 解の不定性がなくなった(回転をかける必要性がなくなった) 文献紹介II
Formulation of the Model • x :p×1の観測変数ベクトルξ:l×1の因子ベクトルε:p×1の誤差ベクトルΛ:p×lの因子負荷行列 • 仮定 ――― • A1. Eε=0,Eξ=0 • A2.εは相互に独立で, εとξも独立 • →ただし, この場合A2は通常よりも強い意味を持つ 通常の因子分析モデルと同じ これも通常の因子分析モデルと同様 文献紹介II
クロネッカー積を用いると • 期待値を取ると • 実はこれも通常の因子分析モデルと同じ • 通常の因子分析 : • Σ2 ,Φ2 ,Ψ2 : x, ξ, εの分散共分散行列 • VecΣ2=(Λ⊗Λ’)VecΦ2 + VecΨ2 となることから確かめられる 文献紹介II
同様に • A1, A2の仮定から以下のように書ける • ここで • のパラメータ(Λ,etc...)を推定したい 文献紹介II
Matrix Φ3 • 通常の因子分析の因子間相関行列に相当 文献紹介II
因子間が独立のとき • を除いてΦ3の要素は全てゼロ • 通常の因子分析での直交モデル • 因子が正規分布していれば • Φ3は全てゼロ • E(ξ3)はξの分布の歪度を表すため • 正規分布は歪度がゼロ:分布の形が歪み無いから • cf 歪度:平均周りの3次のモーメントを標準偏差の3乗で除したもの • としたときの 文献紹介II
因子間が独立でないとき • 通常の因子分析の斜交モデルに対応 • Φ3の要素にどういった制約がなされるべきかは明らかでない • もちろんξが正規分布していれば全ての要素はゼロになるが • 必要なもの • 分布に関する理論で、現実的な制約を示すもの 文献紹介II
Identification Under Independence of Factors • 要するに回転の不定性について • 通常の因子分析 • Λ* =ΛT (T:任意の直行行列) とすることが出来る • (つまり回転をかけることが出来る) • Σ3までを考慮した今はどうなるか • :Λ*=ΛT時の とすると • T, の性質から となり、T=Iとなる →回転の不定性が排除された! 文献紹介II
Minimize over θ Estimation of Parameters • σ(θ):Σ2, Σ3の要素が並んだ列ベクトル • モデルのパラメータが入ってることになる • Σ2, Σ3の定義を参照 • s:2次と3次の標本cross-products • σ(θ)の標本版. • W:重み付け行列 • W=I:単位行列のとき • X2:通常の最小二乗基準 (何も重み付けられていない) • 計算が簡単 • W:sの分散共分散行列の一致推定量の逆行列のとき • X2:漸近的にカイ二乗分布に従う 文献紹介II
最良一般化最小二乗(BGLS)推定値 • 漸近的に分散が最小 • 最小カイ二乗推定値と密接に関係 • 最小カイ二乗推定値 • sが十分統計量なら→最良漸近正規(BAN)推定量 • 分布が仮定されないとき • sは十分統計量でない→BAN推定量ではなくなる • BANとBGLSの違いは重要 • 2次と3次のCross-Productsしか用いてないため(限定された情報しか使っていないということ) 文献紹介II
BGLS推定量を求める • W:sの分散共分散行列の一致推定量の逆行列 • X2の代わりに以下の式をminimizeしても、同じ漸近特性を持つ • 漸近的に df=(sの要素数)–(θの独立した要素数), のカイ2乗分布に従う • θ* :θの一致推定量, • 変数に分布を想定しないで重みを用意したとき ADF(Asymptotic distribution free)method と呼ぶ • 推定量の漸近分散共分散行列 • これがわかる→標準誤差がわかる→検定が可能 文献紹介II
具体的にどうするか • 1. W=IとしてX2からθ*を求める • 2.A(θ*)を求め, hat{θ}をX2 _Lから求める • 以下の連立方程式を解いて求められる • ここで • ゆえに 文献紹介II
Asymptotic Covariance of Second and Third order Cross-Products • W(sの分散共分散行列の一致推定量)を算出する • 普通にやったんじゃ計算量が多く、やっかい • 例えば8変数のとき • 2次の積率:8H2=9C2で36個 • 3次の積率:8H3=10C3で120個 • 計156×156なるサイズの行列 要素は25項のσij等からなり、更に6次のcross-productsも登場 • →すごい計算量 • 計算量を減らす方法が述べられている • が、割愛:計算量を少なくするためなのであまり本題に関係ない 文献紹介II
Example1―――人工データ解析 • ポイント • BGLS推定量, モデルのfit具合, 標準誤差について • (Uniqueな負荷量を得られるか, は実データ解析で) • 方法 • 分散を1とした対数正規分布から変数を得る • 歪みある分布だから • 因子(得点)も同様に対数正規分布から • 1000標本, 8変数, 2因子モデル • 歪度等の詳細は次ページの表参照 文献紹介II
結果 • 前ページの表 • 最小カイ二乗解と最小二乗解 • あまり差は無い • 最小カイ二乗解の95%区間を考える • 変数3の因子2への負荷以外の最小二乗解は受け入れられる • 最小カイ二乗解 • X2=65.51, df=66, p=.49 • もし変数に正規性を仮定していたならば X2=21.09, df=13, p=.07 • ∴ X2統計量は非正規性に対して頑健でない 文献紹介II
25回のBootstrapサンプリング • それぞれについて最小二乗解を算出 • Figure2 (と実は前々ページの表) • 25組の解は最初の最小二乗解と線で結ばれている • 最小カイ二乗解の95%区間が楕円で描かれている • まとめ • 変数3の因子2への負荷 • 変数3の歪度:他より高い から? 文献紹介II
Example2 ―――実データ解析 • 職業学校生の社会-感情特性データから6変数を選択 • 全変数とも正規分布に従わない(コロモゴロフ・スミノフ検定から) 文献紹介II
前ページの表 • ML, ADF2, ADF3 • ML: 最尤法-つまり通常の因子分析 • ADF2: 2次の積率のみを利用 • ADF3: 2~3次の積率を利用 • 負荷量:3方法間で大きな差は無い • カイ2乗値:差がある • ML: 2因子では十分に説明できていない X2の値が最も高い • ADF3: もっとも理想的な適合具合 文献紹介II
付けたし • λ12=λ61=0 という負荷を仮定して確認的因子分析を行った • 第1変数は第1因子のみに, 第6変数は第2因子のみに負荷がある 文献紹介II
Conclusion and Discussion • 回転は排除された • 最小二乗解-BGLS解より100倍早く計算できた • 0.58sec and 57.44sec • 変数が多くなればなるほど莫大な時間になると予想 • 代替案 • Linearized BGLS method • 重み有り最小二乗法 • 実データ解析に加えて, モンテカルロstudyが必要 • 次のような側面が研究されるべき • サンプルサイズ, 変数の数, 変数の歪度, 因子構造, 推定プロセス 文献紹介II