250 likes | 401 Views
行動生態学実験実習 III : 文献紹介 I. 行動データ科学講座 B3 里村裕紀. 本日の文献. ダダ被り Kiers, H. A. L.. (1994). SIMPLIMAX: Oblique rotation to an optimal target with simple structure. Psychometrika , 59 , 567-579. 因子分析 解に不定性 →不定性を排除するため回転が為される →「可能な限り単純に」なるよう, パターン行列/負荷行列を回転 ここでの「可能な限り単純に」:変量を説明する因子の数が最小
E N D
行動生態学実験実習III:文献紹介I 行動データ科学講座 B3里村裕紀 行動生態学実験実習III
本日の文献 • ダダ被り • Kiers, H. A. L.. (1994). SIMPLIMAX: Oblique rotation to an optimal target with simple structure. Psychometrika, 59, 567-579. 行動生態学実験実習III
因子分析 • 解に不定性 →不定性を排除するため回転が為される →「可能な限り単純に」なるよう, パターン行列/負荷行列を回転 ここでの「可能な限り単純に」:変量を説明する因子の数が最小 • 解の単純性を最適化する変換 • Varimax (Kaiser, 1958) • Oblimin family (Carrol, 1957) • Direct oblimin (Jennrich & Sampson, 1966) • Promax (Hendrickson & White, 1964) • Orthoblique rotations (Harris & Kaiser, 1964) 行動生態学実験実習III
上記の回転法はある「単純構造基準」を評価し, 最適な単純性を得ることを目的としたもの. • 例えば Quartimin : 因子負荷の二乗の列間積和を最小にする基準 Varimax : 因子負荷の二乗の分散を最大とする基準 • 「因子パターンの単純性」の指標と捉えられる However, 「単純性の度合い」 or 「単純性からの逸脱度」 そのものではなく, 理想的ではない. • (付け加えると, simple だが complexity (どの変量もただ一つの因子にのみ集中する) ではないパターンの場合, oblimin と orthomax は最適化される必要が無い) 行動生態学実験実習III
明確な単純性の基準 (or, 逸脱度の基準) • 得られた回転行列の真に単純なパタン行列からのズレ • 実際に Promax回転 ではそれが2nd stepで用いられている • その点Promax回転は魅力的 →だが2つ欠点がある. • Matching Procedure において Diag(T-1T-1’)=1 制約に最適化されていない. (ターゲット行列が算出された後に実行される) • 前もって良い単純構造を求めねばならない 行動生態学実験実習III
Promax回転の改善を目的とする • ターゲット行列と回転行列を同時に求める • ターゲット行列を主観で選ばない • 0の数を決め, その数だけの0を持つ行列の中から,回転によって最良近似される単純ターゲット行列(“best” simple target matrix)を求める. • 最適化において, Diag(T-1T-1’)=1 を課す 行動生態学実験実習III
An Algotighm for SIMPLIMAX Rotation • SIMPLIMAX回転で解決されるべき問題 • 回転によって最良近似される, p個の0を持つ, 真に単純なターゲット行列を見つけること (the “best” simple target) • 0の位置が既知の場合の解法は多々ある. →しかし, 0の位置を決定する方法は提供してくれない. • ターゲット行列も0の位置も求める • 目的関数 P:m×r, 因子パタン行列(直交) T:r×r, 回転行列 G: m×r, p個の0と, (mr-p)個の任意の要素を持つターゲット行列 m:変量数 r:因子数 行動生態学実験実習III
An Algotighm for SIMPLIMAX Rotation • 先の場合でいう0はPromaxの場合と違い, 0に近い数ではなく, 厳密に0. また, その場所は最適化過程を通じて決定される. • 補助パラメータを導入 • W:ニ値の指示行列.その要素は以下. G={gij}, W={wij} とし, if gij =0 then wij =0 , if gij ≠0 then wij =1 • (1)式を書き直す • PTの(i, j)要素を aijとすると, (1)式は以下のように書ける. 行動生態学実験実習III
An Algotighm for SIMPLIMAX Rotation • wij =1のとき (第1項)=0 (第2項)=(aij -gij)2 • wij =0のとき (第1項)= aij (第2項)=0 • (2)式を Gについて最小化し, Gを式中から消去. if wij =1 then gij = aij , if wij =0then gij =0 とすれば良い. • よって以下の式が得られる 行動生態学実験実習III
An Algotighm for SIMPLIMAX Rotation • (3)式を T, Wで交互に最小化していく • Tが所与, Wについて最小化 →ゼロ要素のbestな位置を決定すること. • 小さいほうからp個の aij2 を求める. • その aij2 の場所に wij =0 を放り込めば良い. (それ以外の場所には wij =1 を放り込む) • Wが所与, Tについて最小化 →Browne(1972)による, より一般的な関数の最小化法があるの でそれを利用する. • ある平面上の因子軸を回転。それを全平面上で収束するまで. • T,Wについて交互に最小化していく. 行動生態学実験実習III
An Algotighm for SIMPLIMAX Rotation • 初期値について • T=Iとする, or 制約を満たすランダムな Tを用いる. • 他の単純構造回転手法で得られた Tを用いる. • “rational start”と呼ぶ • このアルゴリズムは局所最適解にsensitive. • →1回SIMPLIMAXをするにあたって, 多くの T を用いた方が良い 行動生態学実験実習III
Analysis of Artificial Data • 目的 • 真値に辿りつけるかの確認(局所解が起きるかどうか) • 他のよく知られた回転法との比較 • Normalzed Varimax • Promax (4乗) • Harris and Kaiser’s Independent Cluster Rotation • Harris and Kaiser’s Orthoblique rotation with M taken to the power ½ • Direct Quartimin 行動生態学実験実習III
Analysis of Artificial Data • 4条件 • 条件1 m=20 r=4 p=50 average complexity=1.5 • 条件2 m=20 r=4 p=45 average complexity=1.75 • 条件3 m=30 r=5 p=105 average complexity=1.5 • 条件4 m=30 r=5 p=90 average complexity=2 average complexity : 行ごとの非ゼロ要素の数 どの変量も少なくとも1つの因子に関連(大きな負荷), どの因子も少なくとも m/r 個の変量に関連(大きな負荷). 非ゼロ要素は全て0.25以上 • 以上のようにPを生成 (各条件10組ずつ) 行動生態学実験実習III
Analysis of Artificial Data • r個の因子得点を持つobservationをランダムに100個作成→因子行列を生成 • それに基づき Φ: 因子間相関行列を作成 • R=PφP が相関行列となるよう, Pを行ごとにscale. • RをPCAにかけて, パタン行列を得る. • T • 1つの rational start (based on normalized varimax) と 20のランダムな直交行列 • 収束基準 • 前後2回の差が.001%を下回るか, 関数の値が10-7を下回るか, もしくは反復が100回を超えた場合. 行動生態学実験実習III
Analysis of Artificial Data • 真値に辿り付くか • Table. 1 • 条件1~3の場合 真値は, 21回のTにつき, 少なくとも1回は再現された • 条件4 3つのcaseで,真値は再現されなかった. • 40case中 3回, 局所最適解にhit. 行動生態学実験実習III
Analysis of Artificial Data • 他の回転法と比較 • Table. 2 • 回転後の行列の列を真値に合うよう並び替える. • 小さい方からp個の位置を見つける. • 対応するWを求め, 真値のWとの違いの数をmisfitの指標とする. (misfitの値が1より大きい⇔変量が異なる因子と関連している) • 真値を再現できない回転法もある. (complexity が 1.5 以上のとき) • SIMPLIMAXはcomplexity が大きいとき, 他の回転法より良い結果. 行動生態学実験実習III
Choosing the Number of Zero Pattern Elements in the Target • スクリープロット的な方法でpの数を決定 • スクリー関数の値が急上昇する前のpの値を用いる. • 欠点アリ. • pの範囲の決め方が決定されていない. • 安全なやり方 : 0 ~ mr 個まで全部調べる. • →より効果的なやり方が好ましい. 少なくとも r(r-1) 個の0は直交回転で算出される. 最大でも (m-1)r 個の0しかない (それを超えると, どこか一つの列の要素が 0 のみになる) 望ましい average complexity の値を示す事は難しくない. 関数の最大値, 最も小さい要素の最大の数, を明示することも可 • →ある程度の範囲は絞れる 行動生態学実験実習III
Choosing the Number of Zero Pattern Elements in the Target • 明確に値が急上昇する所が無い場合. →解釈可能性から判断 • 因子数の決定同様, 無視できない主観的な要素を含む. 行動生態学実験実習III
SIMPLIMAX Applied to the Pattern for the Box Data • Thurstone の Box Data を分析 • Table. 3 • Highly different but simple nonlinear combinations • 前述の5つの回転法を適用 • 復元できず • SIMPLIMAX • p=25~30で適用.(Box Dataはp=27) • 目的関数の値はp=27で large jump. • p=27 を採用. Table 3 は p=27 のときを掲載. • SIMPLIMAXの因子間相関 (1と2):0.20 , (1と3):0.27, (2と3): 0.28 • HKM1/2の因子間相関 (1と2):0.16 , (1と3):0.21, (2と3): 0.18 行動生態学実験実習III
Fixing the Variable Complexity in the Target • SIMPLIMAX method • Average complexity を前もって決定する必要は無い • ある種の場合, 前もって決めて分析したいこともある. • 目的関数 • Tが所与 • {ai1, …, aim }の小さい方からpi個選び, 対応するwiの要素に 0 を, それ以外の要素に 1 を放り込む. • Wが所与 • Brwone(1972)の方法を用いる. 行動生態学実験実習III
Analysis of Twenty-four Psychological Tests Data by SIMPLIMAX with Complexity One • Table. 4 • PCAで相関行列を分析→4成分をSIMPLIMAX with Complexity one で回転. • HKICでも分析 • 若干, 両者が違うところアリ. • 変量20と変量22の所属する因子 • 変量13, 変量16,変量21 が二つの因子に所属している. 行動生態学実験実習III
Discussion • Box Data • SIMPLIMAXはよりよく知られている他の手法より良い結果. • 代わりの手段少なくとも1つある. →Cureton and Mulaik’s weighted varimax. これは, 因子パタンにおける, (このBox Dataの持つ)ある種の 対称性に基づいたもの. (実際のデータではそう有るものじゃない) (対称性がないと成功せず←人工データの分析より) • SIMPLIMAXは一般に斜交回転 • 直交にすることも可能. 行動生態学実験実習III
Discussion • SIMPLIMAXは他の斜交回転と比べると, 2つの不利な点を持つ. • 局所解 • 十分な数のランダムな初期値を用いればOK. (計算機の発展で, この制限は近い未来にはさして重要なことじゃなくなる) • pの選出 • 他の方法でも, user が決定しないとならないパラメータは存在. • Orthoblique の Mの指数, obliminのγ, Promaxの乗数) • シミュレーションによって, これらの値は大体の標準が決まってきた • けど大体. 全ての状況でgoodなものはない. 行動生態学実験実習III
Discussion • SIMPLIMAX • pの値は, 色々なpで出した結果を比較することで決定. • この比較は回転後のfitの値に基づく. • で, この値は端的に,解の単純性の指標. • ということは, その値を使って比較できるということはむしろadvantageでは 行動生態学実験実習III