490 likes | 624 Views
確率と統計 2009. 平成 20 年 1 月 7 日 ( 木 ) 東京工科大学 亀田弘之. 修正版 Version 3. 復習. はじめにデータありき. 5. 9. 2. 8. 1. 6. 1. 1. 4. 2. 7. 社会調査や実験の実施 により得られる. データを全体として眺めるとき, 集団として 何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を , 例えば, ( 算術 ) 平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・範囲 (range) などで数値的に捕らえた.. 定義や計算方法が重要.
E N D
確率と統計2009 平成20年1月7日(木) 東京工科大学 亀田弘之 修正版Version 3
はじめにデータありき 5 9 2 8 1 6 1 1 4 2 7 社会調査や実験の実施 により得られる
データを全体として眺めるとき,集団として何らかの性質を持っている.=>統計的性質データを全体として眺めるとき,集団として何らかの性質を持っている.=>統計的性質 • この性質(分布の様子)を,例えば,(算術)平均・中央値・モードなどのいわゆる代表値や,分散・標準偏差・範囲(range)などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう.
参考情報 統計ソフトウェア • EXCEL:お手軽? • R:フリーソフトウェア(お勧め?) • SPSS:本格的なソフトウェア(有償) • SAS:本格的なソフトウェア(有償) • GnunPlot・Maximaなども便利(いろいろと学んでください.) 日本計算機統計学会のページも参考にしてください。 http://www.jscs.or.jp/etc/softdata.html
基本的な統計量 • 平均 • 中央値 • モード • 最大値・最小値 • 範囲 • 分散 • 標準偏差 など
平均 • 定義 : m =(x1 + x2 + ・・・+Xn)÷n • 意味:データ群の中心 • 考え方:データ群の中心で,データ群 を代表させる.(代表値) • 特徴:量 の最小値を与える点. (基準点としてふさわしい)
中央値 • 定義:データを大きさの順に並べたときに 中央にくるデータ値. • 意味:順序的観点から真ん中辺り. • 考え方:順序的観点から中庸を捉えている. 真ん中辺りを代表値とする. • 特徴:飛び離れ値に影響されない. 量 の最小値を与える点.
モード • 定義:度数(出現回数)がもっとも 多いデータ値. • 意味:多数派がデータ群を代表する. • 考え方:度数の多いもの程重要. • 特徴:飛び離れ値に影響されない. 代表値として素直な定義.
データの散らばりも大切 • 分散 • 標準偏差 • 範囲
範囲(レンジ) • 定義:R = 最大値 ー 最小値 • 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) • 特徴:計算が簡単 (工場などで実用されている)
分散 • 定義: • 考え方:「各データの平均mからのずれ」に着目して,その平方数の平均を求め,データ全体の散らばりを捉える. • 特徴:数学的に取り扱いやすい.
標準偏差 • 定義:分散の平方根(√分散) • 考え方:分散をもとに,データと同じ 次元の量にする. • 特徴:データに対して,足したり 引いたりすることができる.
以上で,得られたデータ群の特徴をとらえることができるようになった.以上で,得られたデータ群の特徴をとらえることができるようになった.
知りたい対象(母集団) 母集団 4 3 1 5 1 6 7
標本 母集団 4 5 1 3 1 5 3 1 1 6 7 無作為抽出
標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的分析
標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的推論
抽出法 • 無作為抽出法:どのデータも等確率で抽出されるようなサンプリング法.どの単純事象も等確率で取り出される抽出法.Laplaceの確率の定義参照.高校で習った確率の定義でOK. • 詳しく知りたい人は,社会調査法などの勉強をしてください.(データは適切に集めなければ,分析しても意味がない.サンプル数の決め方なども重要です.)
分析法 • 統計的推定 • 統計的検定 この授業では「モデルに基づく分析」を主に取り扱っているが,近年モデルに基づかない分析法も重要になっている.(例:データマイニングの分野)
統計的推定 • 点推定 • 区間推定 • 信頼区間 • 信頼限界 興味のある人は,教科書p.136~p.142を参照のこと.
統計的検定 • この授業では,まず,これを学んで欲しいと思っています.(理由:とにかく役に立つから. そして,なれないと結構 難しいから.)
仮説検定の考え方 • 前提: • 調査や実験によりある事実Eが得られた. • この事実からあることを主張したい.(これを仮説という.) • 方法論: • モデルを仮定する(仮説設定:帰無仮説H0) • その仮説が正しいとして,事実Eの生起確率pを計算する. • pの値が異常に小さければ,仮説H0を棄却する.(誤謬法の考え方)
検定の考え方の例 • 実験:サイコロを600回振ったら,1の目が180回出た(事実E). • 主張したいこと:1の目が出やすい. • 仮説の設定:どの目も等確率で出る. • Eの生起確率pの計算:p≒0 • 判断:出易い. 計算方法と判断の基準の理解が重要
例題(教科書p.163例1) ある市役所ではこれまで数年間銘柄Aの電球を購入していたが,銘柄Bの電球の方が価格が安いのでBへの切り替えを考えている.銘柄Bのセールスマンは自社の製品が品質においてAの製品と同じであると主張している.数年間の経験によれば,製品Aの平均寿命は1180時間で,標準偏差は90時間であった.
製品Bのセールスマンの主張をテストするため,その銘柄の電球100個を正規販売店から購入して試験をした.この結果,m=1140,s=80が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか?製品Bのセールスマンの主張をテストするため,その銘柄の電球100個を正規販売店から購入して試験をした.この結果,m=1140,s=80が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか?
問題の整理 • 事実:製品Bのm=1140,s=80 製品Aのm=1180,s=90 • 知りたいこと:Bの方が劣っている. • 仮説:AとBは品質的に同等. • 確率の計算:Bのデータの生起確率pを,平均μ=1180,分散σ2=90^2の母集団からの抽出として計算する. • 危険率(有意水準)αを設定する.Α=10%とする.
理論的根拠(1) • 標本平均の平均mは母平均と等しい. • 標本平均の分散σm2は母分散のn分の1倍.(nは標本の大きさ) つまり, E(m) = μ E(σm2)=σ2/n
理論的根拠(2) • xが平均μ,分散σ2 の任意の分布に従うとき,大きさnの無作為標本に基づく標本平均mは,nが限りなく大きくなるとき,平均 μ,分散 σ2 /n の正規分布に近づく. 中心極限の定理 (統計学で1番重要な定理) 教科書p.130 定理2
計算 • 標本平均の分散:90/√100 = 9 • 標準化:Z = (1140 – 1180) / 9 = -40/9 = -4.4 • 標準正規分布表(教科書p.295 表IV): Zがー∞~-4.4の範囲の値をとる確率は,p≒0.
判断 • 確率p≒0 < 0.1 (10%) . • おきにくい事が起きたのではなく,仮設が間違っていると考えて,仮設を捨てる. • 最終結論:有意水準10%において, 銘柄BはAよりも劣っている.
コメント • 確率の計算方法を理解するためには,数学の勉強が必要であるが,検定をすることが目的の場合,基本的考え方と手順をしっかりとマスターすればよい. • 理論的なものは,必要に応じて,必要になったものだけを一生かけて勉強してください.
χ2検定 • いろんな場面で使えて便利な検定法.(先ほどのサイコロの例を再び取り上げてみる.)
χ2 = 76.8 > χ02 = 6.6(有意水準1%) • 結論:有意水準1%のもとで,1の目は出やすい. 手法は異なっても結論は同じ
2つの平均の差の検定 • 先の電球A,Bの品質の差の問題を再度取り上げる.これは2つの平均同士に差があるかどうかの検定と考えることもできる.これを「2つの平均の差の検定問題」という. 教科書p.172~p.176
定理 • x1,x2がそれぞれ独立に平均μ1,μ2,標準偏差σ1,σ2の正規分布に従うとき,変数x1-x2は 平均 μ1ーμ2,標準偏差σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う.
仮説:Aの平均とBの平均とは等しい. • 計算:変数x1-x2は, • 平均 = 0 • 標準偏差 = √(90*90/100 + 80*80/100)= 12 の正規分布に従う. • Z=(1140-1180)/12=-40/12=-10/3=-3.3 • Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面積を求めると,表VIより,p≒0 • 結論:AとBの平均の差は同じではない.
コメント • 「2つの平均の間に差があるのか?」はしばしば問題となるので,この検定方法は役に立つ. • ただし今の場合,母分散σ1,σ2が既知である.これらが既知でない場合はもう一工夫が必要となる.(t検定を導入する必要がある.)
Problem1 さいころを180回投げて、1の目の出る確率が28回以上、34回以下である確率を求めよ。
ヒント • B(n,p)の二項分布は、nが十分大きければ、平均np, 分散np(1-p)の正規分布で近似できる。 • N(μ, σ2)の正規分布は、標準化変換Z = (X – μ)/σ により、標準正規分N(0, 1)に変換される。
Problem2 • 1つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準5%で検定せよ。
Problem3 • ある町で無作為に選ばれた618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか?有意水準5%で検定せよ。
Problem4 • 結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか? ただし、有意水準5%。
ヒント I. 理論値 II. 自由度φ = (行数 ー 1)× (列数 ー 1) = (3-1)・(4ー1) = 6 III. 計算値χ2 =20.7 > χ02 =12.6