310 likes | 378 Views
検定. 統計の基礎 第 13 回 7 月 15 日. 復習 . N(m,σ2) への 変換 m+kσ. 前回時間末レポート. サンプル 数 2100 人、賛成比率 0.3 、 信頼度 95 %で、母集団比率を区間推計せよ 。 p±k * (p(1-p)/n)^0.5. 検定の例. 紅茶にミルクを入れるかミルクに紅茶を入れるか 違いが分かるのか 分かるか確かめるにはどうするか ( キリンビールとサッポロビールの違いが分かるか ). 完全に違いが分かる. 二つ並べて判定させる 正しい判定をする ・・・・・・ ①何度当たりを繰り返せば認めるか
E N D
検定 統計の基礎 第13回 7月15日
復習 • N(m,σ2)への変換 m+kσ
前回時間末レポート • サンプル数2100人、賛成比率0.3、信頼度95%で、母集団比率を区間推計せよ。 p±k*(p(1-p)/n)^0.5
検定の例 • 紅茶にミルクを入れるかミルクに紅茶を入れるか 違いが分かるのか 分かるか確かめるにはどうするか (キリンビールとサッポロビールの違いが分かるか)
完全に違いが分かる • 二つ並べて判定させる • 正しい判定をする ・・・・・・ ①何度当たりを繰り返せば認めるか ②一定の回数のうち何回か当たれば認めるか
②一定の回数のうち何回か当たれば認めるか ある程度違いが分かる • 二つ並べての判定を何回かさせる ・・・・・・ • 何回以上当たれば認めるか • 分からなくても何回以上当たる確率が 十分低くなれば認める
前回の復習を兼ねた問題 大規模な調査でこれまでのA政党の支持率が35%と分かっていた。 新たな政策の提示後、2275人のサンプル調査で、37%の支持率となったが、この場合、支持率が上がったと言えるか。①帰無仮設を設定し、②サンプル比率の標準偏差を求め、③有意水準5%で検定してください。
Mという英語の試験において、これまでの経験から日本のみで育った学生の成績は平均45点、標準偏差9の分布に従うことが明らかになっている。 Mという英語の試験において、これまでの経験から日本のみで育った学生の成績は平均45点、標準偏差9の分布に従うことが明らかになっている。 (1) ある9名の学生についてこの試験を受けさせたところ、平均48点であった。このとき、この学生たちが日本のみの育ちであるかを統計的に検定せよ。 (2) 他の9名の学生は、この試験で平均53点であった。この学生たちが日本のみの育ちであるかを検定せよ。 • 広田すみれ著『読む統計学使う統計学』慶応義塾大学出版会2005年の問題を変更して出題
なぜ仮設検定としてこのようなひっくり返った分かり難い手法をとるのか。なぜ仮設検定としてこのようなひっくり返った分かり難い手法をとるのか。 • 肯定的事例を列挙しても確実な検証に達するわけでない。否定的事例を1つでも挙げる方が、結論が早く出る。 • 物事を否定するには、かなり強い状況証拠を求める。このため、「帰無仮設を棄却する人々に、その証明の重い負担を掛けさせる」ことによって、いい加減な判断を避けることができる。
「富山県は自然が豊かだ」 単に肯定的事例を列挙 否定例で反証 ただし、自然は豊かでないと証明した訳でない
(追補)フィッシャーのテスト • ミルクに紅茶が正解
統計的仮説 母集団の特性に関する記述帰無仮設(H0)・・受け入れらるか直接検証する仮設対立仮設(H1)・・最初の仮設帰無仮設を棄却(受け入れない)ことに強い証明を要求する→対立仮設を受け入れることに強い証明を要求している(グレーゾーンを安易に受け入れない・・・日常的な判断はこの逆になりがち)
有意水準(危険率) 帰無仮設を誤って否定する確率 一般に(学術分野では)、5%、1%、0.1%を用い、それぞれ「*」「**」「***」と表記する。 この確率は、慣例であり、事業経営などの際はまったく違うものもありえよう。
検定 (例) 標準偏差で乖離度(確率的可能性)を測定する 帰無仮設(H0)及び対立仮設(H1)を示す Zの境界値、Zcを示す サンプル平均の標準偏差値を計算する サンプル平均のZ値を決定する 結論を述べる
過誤 第1種の過誤 帰無仮設を正しい時に受け入れれないとする過ち 第2種の過誤 帰無仮設を正しくない時に受け入れてしまう過ち ネイマン・ピアソンの基準 第1種の過誤の確率を一定以下とし、 第2種の過誤の確率をできるだけ低くする
片側検定・両側検定 平均からの乖離(偏差)を片側だけ考慮すればよい場合 片側のみの確率を検討する。 例えば、「物価が上昇した」か検証する場合であれば、片側で済むであろう。 ただし、片側検定では、第2種の過誤の確率が高まる。 また、有意水準の意味が変化するはずだが、この解釈は容易でない。
検定の必要性サンプリング調査統計は、常に、母集団の値に引き当てて考えることが必要検定の必要性サンプリング調査統計は、常に、母集団の値に引き当てて考えることが必要
多様な統計値毎に検定手法が検討されている ・サンプル平均、サンプル比率・・・正規分布 ・二つの平均の違い、二つの比率の違い ・相関係数(未学習) ・分散分析(未学習) それぞれの分布形態があるt分布、f分布、χ二乗分布 各種の統計値につい、これらの分布で生起確率を求め、検定する
なぜ検定を行うか生起確率で直接判断できないかなぜ検定を行うか生起確率で直接判断できないか • 逐一有意水準を議論していては恣意的になる • 確率の計算が難しかった →考え方が変わっていく可能性がある
χ2検定 • 期待度数 • 実測度数 • χ2値 (CHITEST)
自由度(行数-1)*(列数-1) • χニ乗分布の型x(χニ乗値)より右側の確率を利用 • CHIDISTCHITEST
◎悉皆の取り扱い • 特定集団全体の実際の値 本来、別の母集団がある訳でない • 特殊な集団と考えられるか? サンプリングしたと想定して出現する集団か • 集団の行動等の結果として差がでているのか 薬の効果、先生の教え方、・・・
◎検定の様式 • 今日の学問の作法として広く普及 有意水準も一つの作法 勝手に設定すると、勝手なことを言い出す 様式が決まっていることで、それに乗って判断 →その都度、考えなくても機械的に対応できる • 一定の有意水準のもとでのχ二乗値の限界値が 自由度毎に分かっていれば済む ネイマン・ピアソンの作法
パソコンの進歩 • これまでは、一種の簡便法であった作法に則った、計算ソフトで処理 結果のみ利用 • 直接、確率で表現することも容易に ⇒ P値 フィシャーの主張 今後、いろいろとやり方が変わっていくであろう(χニ乗検定の計算にも対数を介在させた別の計算方式)
次の集計表のχニ乗値を求め属性(男女)によって差異があるか判断せよ。(どの程度の有意水準で違いがあるとされるのか)次の集計表のχニ乗値を求め属性(男女)によって差異があるか判断せよ。(どの程度の有意水準で違いがあるとされるのか)