1.2k likes | 1.29k Views
分割表データの分析 With the help of Mr. Machida. 1.カイ2乗検定 2.対数線形モデル. 1.カイ2乗検定. 1.1 分割表とは 1.2 2×2 分割表の分析 1.3 p×q 分割表の分析. 1.1 分割表とは. 分割表とは. 対象者から得た“質的な”データを集計してまとめた表のこと 量的なデータでの散布図に対応 もともと厳密な数値化が困難 or 不可能なデータ 性別,血液型,出身地 etc ・・・ 量的なデータからカテゴリーに分類することも 尺度得点により「高群」・「低群」に分類 etc ・・・
E N D
分割表データの分析With the help of Mr. Machida 1.カイ2乗検定 2.対数線形モデル
1.カイ2乗検定 1.1 分割表とは 1.2 2×2分割表の分析 1.3 p×q分割表の分析
分割表とは • 対象者から得た“質的な”データを集計してまとめた表のこと • 量的なデータでの散布図に対応 • もともと厳密な数値化が困難 or 不可能なデータ • 性別,血液型,出身地 etc・・・ • 量的なデータからカテゴリーに分類することも • 尺度得点により「高群」・「低群」に分類 etc・・・ • クロス表,集計表ともいう
2次元分割表の具体例 • 親が子どもに期待する最終学歴を調査 • 性別(2)と希望学歴(4)の2×4分割表
3次元分割表の具体例 • 募金活動への参加意志を調査 • 災害のVTRを視聴 • VTRの有無(2), 性別(2), 参加意志(3)の2×2×3 分割表 田中敏(1996)実践心理データ解析
2×2分割表の例---阪大人間科学部での調査---2×2分割表の例---阪大人間科学部での調査---
検定方式 二つの属性に 関係がない 二つの属性に 何らかの関係がある
連関の強さの評価 • カイ2乗検定が有意になったとき • odds 比=ad/bc=(a/b)/(c/d)=10.4 • クラメールのV:
たこ焼きホームページ http://koko15.hus.osaka-u.ac.jp/~taco/goraku/recipe/ http://www.mesh.ne.jp/osaka/takoyaki/
Options nocenter; DATA taco1; DO region = '関西人', '非関西'; DO takoyaki = 'たこ焼き器あり', 'たこ焼き器なし'; INPUT num @@; OUTPUT; END; END; CARDS; 12 3 5 13 ; RUN; PROC PRINT; PROC FREQ DATA = taco1; WEIGHT num; TABLES region * takoyaki / CHISQ; RUN; SASプログラム
Obs region takoyaki num 1 関西人 たこ焼き器あり 12 2 関西人 たこ焼き器なし 3 3 非関西 たこ焼き器あり 5 4 非関西 たこ焼き器なし 13 region takoyaki Frequency| Percent | Row Pct | Col Pct |たこ焼き|たこ焼き| Total |器あり |器なし | ---------+--------+--------+ 関西人 | 12 | 3 | 15 | 36.36 | 9.09 | 45.45 | 80.00 | 20.00 | | 70.59 | 18.75 | ---------+--------+--------+ 非関西 | 5 | 13 | 18 | 15.15 | 39.39 | 54.55 | 27.78 | 72.22 | | 29.41 | 81.25 | ---------+--------+--------+ Total 17 16 33 51.52 48.48 100.00 SAS出力(1)
SAS出力(2) Statistics for Table of region by takoyaki Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 8.9335 0.0028 Likelihood Ratio Chi-Square 1 9.4350 0.0021 Continuity Adj. Chi-Square 1 6.9650 0.0083 Mantel-Haenszel Chi-Square 1 8.6627 0.0032 Phi Coefficient 0.5203 Contingency Coefficient 0.4616 Cramer's V 0.5203
SAS出力(3) Fisher's Exact Test ---------------------------------- Cell (1,1) Frequency (F) 12 Left-sided Pr <= F 0.9997 Right-sided Pr >= F 0.0036 Table Probability (P) 0.0033 Two-sided Pr <= P 0.0049 Sample Size = 33
解説 Table Prob= P(a=12)=0.0033 Right-sided Pr=P(a=12,13,14,15)=0.0036 Left-sided Pr=P(a=12,11,…1,0)=0.9997 Two-sided Pr =P(a=12,13,14,15)+P(a=4,3,..,0)=0.0049
まとめ • 基本はchi-squareの利用 • 最小二乗法系の統計量 • LRは尤度にもとづく方法 • 連続修正を施したchi-squareを用いるべきだという意見もあるが,nが大きいときは大差ない • nが小さいときにはFisher’s Exact Testを用いる
注意点 • 期待度数 Eijが 5 以下のセルが存在する場合 • 出力結果に警告が表示 • WARNING: ** % of the cells have expected counts less than 5. Chi-Square may not be a valid test. • χ2分布への近似が悪くなるため • 対応 • Fisher’s Exact Test • 意味が似たセルを結合 • 研究目的から外れては無意味 • サンプル数を増やす
実際例 • 「あなたにとって,過去・現在・未来のうちで最も重要な意味をもつのはどれですか?」 • 年齢層による違いはみられるか?
分析結果 Statistics for Table of age by time Statistic DF Value Prob ----------------------------------------------- Chi-Square 4 19.4288 0.0006 Likelihood Ratio Chi-Square 4 19.4515 0.0006 Mantel-Haenszel Chi-Square 1 18.2429 <.0001 Phi Coefficient 0.2766 Contingency Coefficient 0.2666 Cramer's V 0.1956
χ2検定で有意のとき • 2つの変数は独立ではない • 関連の強さはどの程度? • 連関係数 • どのセルが有意性に“貢献”したのか? • p×q 分割表の場合,同定は難しい • 残差分析
残差分析 • χ2検定の事後分析(p×q分割表) • どのセルが有意性に貢献したのかを判定 • χ2検定が有意でないときは用いてはならない • セルごとに「調整された残差」を算出 • 残差=観測度数-期待度数 • 標準正規分布に従うように調整
Procedure Step 1) 期待度数 mij(H0のもとでの理論値)をもとに, 各セルの「標準化された残差」eij を求める Step 2) eij の分散 vij を求める Step 3) 各セルの「調整された残差」dijを求める Step 4) dij が N (0,12) に近似的に従うことを利用し, 各セルの検討を行う
残差分析の結果(まとめ) • 青年期では過去指向は少なく,未来指向が多い • 老年期では逆の傾向がみられる
Further topics • 独立性の検定と一様性の検定 • マンテル・ヘンツェル検定 • 傾向性と対称性 • マクネマーの検定 • コクランのQ検定 • 予測による連関の強さの評価
2.対数線形モデル 2.1 対数線形モデルの必要性 2.2 対数線形モデルの基礎: 2変数の場合 2.3 シンプソンのパラドックス: 3変数の場合
対数線形モデルとは • 各セル度数の“対数値”がいくつかの要因効果に分解されると仮定 • モデル式は分散分析と酷似 • 質的データの分散分析 • 文献によっては,各セルの“確率”の対数値に線形モデルを当てはめていることもある
X related? Y Z χ2検定の限界 • χ2検定は “overall”な検定 • 得られる情報は分割表の全体的な傾向のみ • 独立でないときにどのような情報が得られるか • セルや変数の増加に伴い無力化 where? where? where?
独立でないときのモデル化 • χ2検定では“積”のモデルを仮定 • H1のとき,どのように考えればよいのか? 2変数A,Bが独立でない ことによって生じる効果
対数線形モデルへ • 対数を取ると“積”が“和”になりANOVAの類型となる⇒対数線形モデル!!
シンプソンのパラドックス • 多元分割表において,以下の分析結果に矛盾が生じること • 要因Aの水準ごとにB×Cの分割表を分析 • 要因Aの水準を併合してB×Cの分割表を分析 • その理解に対数線形モデルが極めて有効
シンプソンのパラドックスの例H14年度大学院入試問題シンプソンのパラドックスの例H14年度大学院入試問題 11.(行動データ科学)携帯電話を持つと男女別姓に賛成するのか?携帯電話の有無と男女別姓の賛否を聞いた調査で表1のデータを得た(仮想データ).つぎに,回答者を年齢で層別したところ表2のようになった. 表1 表2
つづき (1)上記の結果を解釈せよ. (2)上記の「年齢」のように,調べたい要因に影響を及ぼす別の要因を剰余変数(extraneous variable),または,第三変数という.観察データの分析では剰余変数に注意しなければならない.剰余変数を制御して実験・分析する方法として以下の(a), (b) (c) を考える.これらの相互比較を行い,適用するときの注意点を述べよ. (a) 年齢が一定のサンプルをとる. (b) 若年層,中高年層などのように年齢も要因として取り上げる. (c)被験者をランダムに二分し,一方には携帯電話を持たせ他方には 持たせない.一定期間後,男女別姓についての意見を問う. (3) (2)の (c) における実験で,なぜ年齢の影響が制御できているのか説明せよ. (4) 実験データの分析において標示因子と制御因子という区別がある.たとえば,性別の要因は標示因子であり,携帯電話を持たせるか持たせないかという要因は制御因子である.このような区別が意味をもつ理由を説明せよ.
CATMOD procedure • Categorical (Data) Modeling • いくつかの質的変数間の関係を分散分析のように分析するためのツール • 対数線形モデルはCATMODをつかう • 多項のロジスティック回帰分析もできる
2.2 対数線形モデルの基礎:2変数の場合 • 2変数-対数線形モデルの導入 • p×q 分割表の再分析 • SASによる分析例―PROC CATMOD