190 likes | 250 Views
第6回授業( 5/15) の目標. 先回の第1章の WEB 宿題実行上の注意。 第3章の区間推定の基本的考え方を学ぶ( この途中までで、終了 )。 第3章の母平均の区間推定に必要な数表の見方を知る(岩原テキスト、 p.434, t- 分布表)。 テキスト p.13 の信頼区間はどのようにして得られる?- 信頼区間導出の概要 について学ぶ。 検定と推定 は、1つの関係式の見方の違いであることを学ぶ。. 第1章の WEB 宿題(5月1日分)実行上の注意点.
E N D
第6回授業(5/15) の目標 • 先回の第1章の WEB 宿題実行上の注意。 • 第3章の区間推定の基本的考え方を学ぶ(この途中までで、終了)。 • 第3章の母平均の区間推定に必要な数表の見方を知る(岩原テキスト、p.434, t-分布表)。 • テキスト p.13 の信頼区間はどのようにして得られる?-信頼区間導出の概要について学ぶ。 • 検定と推定は、1つの関係式の見方の違いであることを学ぶ。
第1章の WEB 宿題(5月1日分)実行上の注意点 • 各自の学籍フォルダの下に作成した data フォルダの下に、TeraPad で 5/1 (金)の授業中に使った10個のデータは、 basic_stat.txtなるファイル名で保存。 • 各自が作成した sasprog フォルダの下に、千野の HP から basic_stat.sasなるSAS プログラムを保存し、filename 文の basic_stat.txt へのパスの一部を修正保存する。ただし、この時は、プログラム名はもとのままとする。 • 出力結果は、各自が作成した sasout フォルダの下にbasic_stat.lstなるファイル名で保存。
第1章の WEB 宿題(4月24日分)実行上の注意点 • 各自の data フォルダの下に既に作成したデータファイルbasic_stat.txtをコピーし、名前をbasic_stat0.txtと変更したうえで、改めてTeraPad で開き、データの一部を削除・追加することにより 4/24(金)の授業中に使った10個に変えて上書き保存する。 • 各自が sasprog フォルダの下に既に作成したSAS プログラム basic_stat.sasをコピーし、名前をbasic_stat0.sasと変更したうえで、filename 文の basic_stat.txt へのパスの一部を修正し上書き保存する。 • basic_stat0.sas の出力結果は、各自が作成した sasout フォルダの下にbasic_stat0.lstなるファイル名で保存。
母平均の区間推定とは?(1) • 標本(sample) と母集団(population) の違いを基礎実験の1つであるミラーリエル錯視で考えてみよう。 • 例えば、30度30mm条件での20名の被験者の錯視量データを X1, X2, …,X20と書けば、このデータセットは、当該錯視条件における標本である。 • この標本の特徴を記述するには、第1章で学んだ平均、標準偏差などを計算すればよい。
母平均の区間推定とは?(2) • 基礎実験では、これらの値を計算し、それらの値をグラフにプロットし、錯視量に対して斜線分の長さがどう影響するかを考察した(次のスライド)。 • しかし、そこでの考察はあくまでも手にした20個のデータ、すなわち標本についての情報のみから、データの特徴を記述したにすぎない。 • このような特定の標本での数値の特徴ではなくて、例えば、30度30mm条件で一般的に錯視量はどれぐらいかを推定できないだろうか。
基礎実験での考察課題の例 • 認知・行動領域のミラーリエル錯視実験 (1)斜線の長さ(15mm, 30mm, 45mm)を変えた条件下での錯視量を測定し、各条件の錯視量の平均値とSDを計算し、「矢羽根の長さが錯視にどのような影響を及ぼすか」を考察した。 錯視量の平均値 斜線の長さ 15mm 30mm 45mm
母平均の区間推定とは?(3) • 特定の標本での数値の特徴ではなくて、例えば、30度30mm条件で一般的に錯視量はどれぐらいかという場合、我々は標本とそれが得られたもとの数値の集まりを区別していることになる。 • 標本を抽出したもとの数値の集まりのことを、統計学では母集団と呼ぶ(テキスト p.9 本文2行目) 。 • 通常、母集団の数値の数は無限であると考えることが多い。そのような母集団は、無限母集団(infinite population) と呼ばれる(テキスト p.9 本文4行目)。 • このことを図式化すると、つぎのスライドのようになる。
統計的推定・検定の基本的な考え方-1 母集団 • 母集団と標本の関係 我々が手にするデータ は、大きな数値の集まり から抽出された標本であ り、特定のもの。 一方、大きな数値の集 まりから成る集団は、母 集団と呼ばれる。検定の 文脈では、通常、無限母 集団が仮定される。 無作為抽出 標本
統計的推定・検定の基本的な考え方-2 母集団 • 母集団の数値についての特徴を調べるには、数値の分布(母集団分布)を考える必要がある。 • そうなると、母集団分布の平均(母平均)や標準偏差(母標準偏差)を考える必要がある。 • 手にした標本から母集団の特性を推定したり判断したりすることを、推定・検定と呼ぶ。 推定・検定 標本
統計的推定・検定の基本的な考え方-3 母集団分布(理論分布) 確率 • 母集団の数値についての特徴を調べるには、数値の分布(母集団分布)を考える必要がある。 • そうなると、母集団分布の平均(母平均)や標準偏差(母標準偏差)を考える必要がある。 • 手にした標本から母集団の特性を推定したり判断したりすることを、推定・検定と呼ぶ。 母標準偏差 σ μ 母平均 標本の分布(度数分布) 度数 標本標準偏差 sx 標本平均
第3章での母平均の区間推定の考え方 母集団 • ここでは、例えば10個の標本からそれが抽出されたもとの集団、すなわち母集団の平均(母平均)がどのぐらいになるかを推定する問題を扱う。 • より具体的には、例えば10個の標本の平均値等から、それが得られた母集団の平均値がある値からある値(区間)に入る可能性(確率)が例えば95%である、と推論(区間推定)する。 推定・検定 標本
母平均の推定のための2つの方法 • N個の標本 x1, x2, …,xN から、それが抽出された母平均の区間推定する方法には、2つの方法がある。 • 1つは、母集団分布は未知、母分散(母標準偏差)は既知、標本数が大の場合である(テキスト、pp.9-12)。 • 他方は、母集団分布が正規分布で、母分散(母標準偏差)は未知の場合である(テキスト、pp.12-13)。 • 正規分布とは、つぎのスライドにあるような対称で釣鐘型の分布であり、統計学ではこの仮定がこれまでは、よく用いられてきた。 • この授業では、後者の場合の検定を学ぶ。
平均 μ、分散 σ2 の正規分布の特徴 2.15% 34.13 % 34.13% 2.15% 13.59 % 13.59% μ-σ, μ, μ+σ, μ+2σ μ-2σ, 約70% 約95%
信頼区間導出の概要(参考)-1 • テキスト p.13 の (3.18) 式は、後者の場合の母平均の区間推定の公式である。これは、どのようにして導かれるのであろうか? • その答えは、テキスト p.12 の最後から p.13 の最初の式にある:
信頼区間導出の概要-1 • この式の右辺の平均値は、平均μ0の正規分布する母集団からの N 個の標本から計算する。 • この同じ平均を持つ母集団から、これとは異なる N 人の人の当該現象についてのデータを収集すれば、少し異なる平均が得られよう。 • この新たなデータのt 値を計算すると、以前と異なる値となるだろう。つまり、t の値は、N 個の標本を変えると、いろいろな値を取り得る、と言える。
信頼区間導出の概要-2 • つまり、t は、同一母集団からの無作為サンプルであっても、標本を変えると異なる値になる。 • ただし、標本を収集する前には、t の値は決まらない。 • 言い換えると、t は標本を収集する前の段階では、高々、それが如何なる値を取る可能性(確率)がどれ程あるか、と言えるに過ぎない。
信頼区間導出の概要-3(参考) • 実際、標本が得られた母集団の母分散が未知の場合、平均μ0なる正規分布からの N 個の標本を用いて上記の t なる量を計算すると、 すなわち、t は自由度 ν=N-1 の t-分布に従うことが証明できる。ここで、t-分布とは?
信頼区間導出の概要-4 (参考) • t 分布とは、テキスト p.13 の上方の (3.17) 式で表される分布で、f(t) は任意のt が特定の値を取る確率を表す:
自由度v = N-1 のt-分布の分布とは?-正規分布に近い y 軸対称な分布 確率 t- 分布 斜線部 1-α t - t N-1(α/2) t N-1(α/2)