960 likes | 1.4k Views
統計手法アラカルト. パ. ン. ラ. ノ. メトリック法. 行動計量学講座 B3 林賢一二十一歳. 目次(適当). ノンパラメトリック検定とは ノンパラメトリック検定の特徴 いろんな検定 たくさんあります( 18 個 +α ). ノンパラメトリック検定とは. Nonparametric tests ⇔Parametric tests 母集団分布について極めてゆるい仮定しか設けない統計学分野 分布に拠らない (distribution-free) 検定 測定値が完全な量でなく、順序や度数として表されるデータを扱う パラメトリック検定にはない
E N D
統計手法アラカルト パ ン ラ ノ メトリック法 行動計量学講座B3 林賢一二十一歳 nonparametrique
目次(適当) • ノンパラメトリック検定とは • ノンパラメトリック検定の特徴 • いろんな検定 • たくさんあります(18個+α) nonparametrique
ノンパラメトリック検定とは • Nonparametric tests • ⇔Parametric tests • 母集団分布について極めてゆるい仮定しか設けない統計学分野 • 分布に拠らない(distribution-free)検定 • 測定値が完全な量でなく、順序や度数として表されるデータを扱う • パラメトリック検定にはない • データの順序や順位付けに焦点 nonparametrique
長所 • 母集団分布の形がわからなくてもよい • 計算が比較的簡単 • 高校程度の数学知識しか使わない • 仮定の壊れによる影響を受けにくい • 頑健(robust)な検定 • 小標本に対しても適用できる nonparametrique
短所 • データの浪費 • 得られた情報を十分活用できない • パラメトリック検定に比べ検出力が劣る • めんどい • 方法がいろいろありすぎて使いどころに困る • 各検定のための有意確率表が多い • 入手するのも大変 • 分散分析モデルでの交互作用を検定できない(特殊な仮定が必要) nonparametrique
のんぱらは • すごくたくさんほうほうがあります • ここでぜんぶせつめいできません • ぜんぶってなんだろう? • だから、ここではSPSSでできるやつだけしょうかいします • SASののんぱらはへぼい? nonparametrique
前置き • 関数は函数と表現します • 好みの問題です • 断りが無ければ、α=0.05とします • データは全て捏造です • 「ガッツ」は仮想量です • ガッツに関する質問は授業後にでも・・・ nonparametrique
1:1標本のとき • 二項検定 • χ2検定 • Kolmogorov-Smirnovの検定 • ラン検定 • 無規則性の検定 nonparametrique
1-1:二項検定 • Binomial test • 2つのカテゴリからなるデータの期待度数と観測度数が等しいか否かを検定 • 二項分布を用いる • 観測値より極端な値をとる確率を求めればよい nonparametrique
例 (問)コインを20回投げたら、表が5回、裏が15回出た。このコインは公平か? (答)観測値より極端な値をとる確率は よって、このコインは公平であるといえない。 nonparametrique
大標本の場合 • N(全事象)>25のとき、正規近似できる で近似でき(P≒0.5のとき) で検定できる nonparametrique
1-2:χ2検定 • Chi-square test • 2つ以上のカテゴリからなるデータの期待度数と観測度数が等しいか否かを検定 • χ2統計量を用いる • (Oは観測値、Eは期待値) • 小さいほど観測値と期待値の一致はよろしい nonparametrique
例 (問)大学生100人にガッツ税(地方税)導入に関する意見を聞いたら、以下のようになった。 (答) χ2統計量を計算する 自由度4のχ2分布の臨界値は9.49なので、ガッツ税に関する意見は一様でない。 nonparametrique
注意 • 自由度が1のとき、各期待度数が5以下 • 自由度が1以上のとき、セルの20%が5未満か期待度数が1以下 • そういうときは隣接するカテゴリを結合してみるのもよい(2つになったら二項検定) χ2検定は適当ではない(Cochran,1954) nonparametrique
1-3:Kolmogorov-Smirnovの検定 • 標本分布がある特定の理論分布と一致するか否かの検定 • 適合度検定 • F0(X) • 指定された累積度数分布函数 • SN(X) • N個の観測値による標本の累積度数分布 • の最大値を最大偏差と呼ぶ • 数表からDの臨界値を調べる nonparametrique
確率 • 二項分布に従う nonparametrique
例 (問)学生10名に狩野先生のめがねの色が異なる写真を見せ、好みを聞いた。好みは偏るか? (答)maxD=0.5であり、数表からN=10のとき臨界値は0.41なので、好みは偏っているといえる nonparametrique
検出力 • Kolmogorov-Smirnov検定は個々の観測値を個別に扱う • カテゴリの結合を通して情報を失わない • χ2検定より検出力高い nonparametrique
表表表表表表表表表表裏裏裏裏裏裏裏裏裏裏 こんなんでも? 表裏表裏表裏表裏表裏表裏表裏表裏表裏表裏 こんなんでも? 1-4:ラン検定 • 2つの変数(表/裏、男/女など)の観測の順序がランダムか否かを検定 • ラン(run、連)の数に基づく検定 • コインを20回投げ、表、裏ともに10回ずつ出た。公平なコインだろうか? nonparametrique
run run run run run run ランとは • run • ひとつの変数の、ひとつの継続 蟹鮭鮭鮭蟹蟹蟹鮭蟹鮭 この場合、ランは6つ nonparametrique
確率 • 二つの変数をn1、n2(N=n1+n2)としたとき、ランのが数r(≦N)である確率は rが偶数のとき rが奇数のとき(r=2k-1) nonparametrique
ランをもとに • 二つの変数をの総数(それぞれn1、n2)から数表を引いてランダム性を検定 • n1、n2のいずれかが20以上のとき で正規近似でき で検定できる nonparametrique
例 (問)コインA、Bをそれぞれ20回投げ、表、裏10回ずつ出た。公平なコインだろうか? A:表表表表表表表表表表裏裏裏裏裏裏裏裏裏裏 B:表裏表裏表裏表裏表裏表裏表裏表裏表裏表裏 (答)A系列はラン2個。B系列はラン20個。 n1=n2=10のとき、数表より、コインがランダムならばランは6~16の値をとる。よってどちらのコインも公平とはいえない。 nonparametrique
SPSSを使おう1の1 • ラン検定を例に • 左のようにデータを入力 • 分析の前に名義変数を量的変数に変換すること • めんどくさいですね nonparametrique
SPSSを使おう1の2 変換した変数の名前を指定 • 「変換」→「値の再割当て」→「ほかの変数」 • 「今までの値と新しい値」で、変換の種類を指定 nonparametrique
SPSSを使おう1の3 今までの値を指定 新しい値を指定 既に指定した変数 名義変数から量的変数に変換する nonparametrique
SPSSを使おう1の4 • 「分析」→「ノンパラメトリック検定」→ラン • 分割点は中央値でよい nonparametrique
2:2標本(独立)のとき • Kolmogorov-Smirnovの検定 • 位置母数の検定 • Mann-WhitneyのU検定 • Wald-Wolfowitzのラン検定 • Mosesの外れ値反応検定 • 過剰反応に関する検定 分布の位置と形を特定 nonparametrique
2-1:Kolmogorov-Smirnovの検定 • Kolmogorov-Smirnovの2標本検定 • 独立な2標本が同じ分布を持つ母集団から抽出されているか否かを検定 • 1標本の場合とほぼ同じ • 一方の累積度数分布を 、他方を とおき、その最大偏差Dをみる • で、数表を引く nonparametrique
大標本の場合 (n1、n2が40以上) • 両側検定の臨界値は で求められる • 片側検定の場合は下式が自由度2のχ2分布に近似できることから求める nonparametrique
特徴 • 標本が非常に小さいときは、U検定よりもやや効率がよい • 大標本に対しては逆に効率が悪い nonparametrique
2-2:Mann-WhitneyのU検定 • 独立な2標本が同じ分布を持つ母集団から抽出されているか否かを検定 • 順序尺度が適用できるときに利用 • 2標本をひとまとめにし、昇順に順位付け • U統計量を算出 • ノンパラメトリック検定の中で極めて検出力が高い nonparametrique
U統計量 一方の標本(n1個)の順位の和をR1、他方の標本(n2個)の順位の和をR2としたとき とし、小さいほうをU統計量として数表から臨界値を得る。 ちなみに nonparametrique
大標本の場合 • 2標本のデータ数がそれぞれ10以上 • 統計解析ハンドブック • 小さい方の標本のデータ数が20以上 • ノンパラメトリック統計学(S.Siegel) のとき、Uは正規近似でき から、 で近似する nonparametrique
例 (問)小学二年生と人科三回生で逆上がり10回中10回成功するまでの回数を調べた。逆上がりの上達に差があるだろうか? (答)二つの群をひとまとめにし、順位をつける nonparametrique
つづき U(順位の合計)は、RS=1+3+5=9なので 数表より、このデータ数のときにUがこの値をとる確率は0.2であり、小学2年生と人科3回生の逆上がりの上達に差は無い nonparametrique
2-3:Wald-Wolfowitzのラン検定 • 独立な2標本が同じ母集団から抽出されたものか否かを検定 • 1標本ラン検定と同じ • 2つの標本をひとまとめにして、順番に並べてランを算出、検定 nonparametrique
2-4:Mosesの外れ値反応検定 • 過剰反応に関する検定 • ある状況や条件が、ある人には一方に過剰な反応を起こさせ、またあるひとには逆方向に過剰な行動を起こさせることを想定してデザインされた検定 • わかりづらいので、わかりづらい例で説明します nonparametrique
例 (問)パーソナリティ・テストから判別して、自分の衝動を統制できる人のグループ(C群)と、統制が困難である人のグループ(E群)それぞれ9名ずつに、達成困難な課題をさせた後、ガッツを測定し、課題前後でのガッツの差を比較した。2つのグループの間で変動の仕方に差はあるだろうか? 2群の課題前後でのガッツの差 nonparametrique
仮説 • E群のほうが課題による苛つきを解消できず、ガッツの変動が大きいだろう • ガッツが増える人もいるだろうし、減る人もいるだろう • E群の差の平均は0に近い? • C群はあまり変わらないだろう • やっぱり平均は0? • 今までの検定じゃ対応できない • Mosesの検定は、こうした状況を想定した検定方法なのです nonparametrique
新しい概念 • スパン(span) • 得点をひとまとめにしたときの、ひとつの群の順位の範囲 • で表す • 要するにレンジ(range) • レンジの不安定さを考慮して修正 • 端点を取り去ったスパン(truncated span) • で表す • 取り去る数hは自分で決める nonparametrique
例のつづき (答)ひとまとめにして、順位をつける Cのスパンは14。端点を除いた は9(h=1)。最小な は7だから観測値との差は2であり、これをgとおく。つまり、 nonparametrique
例のつづきのつづき 求めるのは、 が観測値より極端な値をとる確率だから であり、これよりp=0.077であり、両群に差があるとはいえない nonparametrique
SPSSを使おう2の1 • U検定を例に • 左のようにデータ入力 • 名義変数を変換 • 小2→0 • 人3→1 • 「ノンパラ」→「2個の独立サンプルの検定」 nonparametrique
SPSSを使おう2の2 検定したい変数を指定 変数をどう分けるか指定 検定の種類を選択 グループ化させる数値を指定 nonparametrique
3:2標本(対応)のとき • 符号検定 • Wilcoxonの符号順位和検定 • McNemarの検定 • 変化の顕著性に関する検定 • 周辺等質性検定 • Exact testがないと使えない nonparametrique
3-1:符号検定 • Sign test • 対応のある2標本に用いる • 順序尺度のときに適用 • 2標本の差の符号に注目 • 一方をA群、他方をB群としたとき、検定される帰無仮説は • 確率は二項分布によって与えられる • 大標本のときの近似も二項検定と同じ nonparametrique
例 (問)人科17名の1回生のときと4回生のときの体育の成績を比較した。差はあるだろうか? 成績(優=4、良=3、可=2、不可=1) nonparametrique
つづき (答)タイ(差が0)は検定から落とす。このときN=14。 表より、符号が負であるのは3個。これより極端な結果になる確率は、片側検定で であり、1回のときのほうが成績がよいといえる nonparametrique
3-2:Wilcoxonの符号順位和検定 • Wilcoxon’s sign rank test • 符号検定の強力版 • 差の向きだけでなく、大きさも考慮 • 一方のスコアをxi、他方をyiとして に順位をつける • 少ないほうの符号を持つ順位の和をTとして、数表から臨界値を得る nonparametrique