第１日目第２時限の学習目標

第１日目第２時限の学習目標 • 基本的な１変量統計量（その２）について学ぶ。 • 尺度水準と適切な統計量との関連を整理する。 • ２変量データを手にした時の分布の特徴の記述方法について学ぶ。 • 基本的な２変量統計量ー１　　　　　　　　　カイ２乗統計量について学ぶ。

基本的な１変量統計量ー２(a) 中央値、四分領域 • 中央値ーデータを小さい順に並べたとき、中央（５０パーセント点）にくる値のこと。 • 第１四分位数ーデータを小さい順から大きい順に並べたとき、下から４分の１（２５パーセント点）にくる値のこと。 • 第３四分位数ーデータを小さい順から大きい順に並べたとき、下から４分の３（７５パーセント点）にくる値のこと。 • 四分領域ーデータを小さい順に並べたとき、第３四分位数と第１四分位数の差の半分の値のこと。

基本的な１変量統計量ー２(b) 四分位数と四分領域 Q の関係 Q = (Q3-Q1)/2 ２５％２５％２５％２５％ Q1 Mdn Q3

基本的な１変量統計量ー２ (c) 中央値 (Median) の求め方 • 中央値の求め方は、千野のＷＥＢ頁の「心理統計学」の第４章の(4.1) 式の通りである。すなわち、 •　ここで、lmは、中央値のある階級の下限点、 •hは、階級の幅、 •cum (lm) は、中央値のある階級より１つ手前までの　累積度数、 •fmは、中央値のある階級の度数

基本的な１変量統計量ー２ (d)第１四分位数の求め方 • 第１四分位数の求め方は、千野のＷＥＢ頁の「心理統計学」の第４章の (4.2) 式の通りである。すなわち、 •　ここで、lQ1は、第１四分位数のある階級の下限点、 •hは、階級の幅、 •cum (lQ1) は、第１四分位数のある階級より１つ手前　　までの累積度数、 •fQ1は、第１四分位数のある階級の度数

基本的な１変量統計量ー２ (e) 第３四分位数の求め方 • 第３四分位数の求め方は、千野のＷＥＢ頁の「心理統計学」の第４章の(4.3) 式の通りである。すなわち、 •　ここで、lQ3は、第３四分位数のある階級の下限点、 •hは、階級の幅、 •cum (lQ3) は、第３四分位数のある階級より１つ手前　　までの累積度数、 •fQ3は、第３四分位数のある階級の度数

基本的な１変量統計量ー２(f) 四分領域の求め方 • これらにより中央値(Mdn)、第１四分位数(Q1)、第　３四分位数(Q3) が求まったならば、四分領域(Q)は、同上第４章の「４.５公式」の中の定義式、を用いて求めればよい。

基本的な１変量統計量ー２(g) 最頻値（mode） • 最頻値ー得られる確率が最も高い値、もしくは得えられる頻度の最も多い値。 • 右の図では、２つの山のうちの右側に対応するｘの値 (mode と　表記）。 x mode

基本的な１変量統計量ー２(h) 中央値、四分領域、最頻値の性質 • 中央値、四分領域は、順序情報以上の尺度レベルのデータでは計算可能である。なぜ？ • 最頻値は、名義尺度、順序尺度、間隔尺度、比率尺度のいずれのレベルのデータでも計算可能である。なぜ？

基本的な１変量統計量ー２　　　　　　まとめ基本的な１変量統計量ー２　　　　　　まとめ • これまでに学んだ基本的な１変量統計量の代表的な幾つかを尺度水準との関連でまとめると右の図のようになる。

２変量データを手にした時の　　　　　　　分布の特徴の記述－１２変量データを手にした時の　　　　　　　分布の特徴の記述－１ • 何らかの目的で N 対の対データ（２変量データ）　を手にしたとする。 • サンプル数 N がある程度以上大きい場合、簡単にデータの全体像をつかむためには、データが原則的に名義尺度レベルの場合はまず分割表を、順序尺度レベル以上であれば散布図を描けばよい。

２変量データを手にした時の　　　　　　　分布の特徴の記述－２２変量データを手にした時の　　　　　　　分布の特徴の記述－２ • 分割表とは、例えば５１４名の被験者を（行と列の）２つの属性を用いて、右のように分類したものである。

データの内容ー１ • 上記データは、新入生に対する永平寺参禅時の５１４名の学生に対する、参禅後の調査データを２つの属性で分類したものである。 • 属性の１つは学生の性別（男子、女子）であり、他方は永平寺の雲水による坐禅指導の評価（厳しすぎた、適当、もっと厳しく）である。

データの内容ー２ • もとのデータは、上記２変量の対（ｘ、ｙ）が、　　　　　　（性別、座禅指導の評価）、　から成る、一対のデータ、５１４名分である。（２，２）、（２，３）、（１，２）、… 、（１，２）これらを、うえの表のようにまとめたものは、分割表または、クロス表と呼ばれる。

分割表（又はクロス表）の作り方 データ　（２，２）、（２，３）、（１，２）、… 、（１，２）

　　　　　　　演習（２） • 次の２０対（２０名）の２変量データセットの１つを用いて、２×２分割表を作成せよ。ここで、（x、y）変量のうち、前者は性別を後者は向性（外向、内向）を表すものとする：　　（データセット１）：　　　　　（１，１）、（２，２）、（１，２）、（１，１）、（２，１）、　　　　　（１，１）、（２，１）、（２，１）、（１，１）、（２，２）、　　　　　（１，２）、（１，２）、（１，１）、（１，２）、（２，１）、　　　　　（１，２）、（１，１）、（１，１）、（１，２）、（１，２）

　　　　演習（２）の続き 　　（データセット２）：　　　　　（２，１）、（２，２）、（２，１）、（１，１）、（２，１）、　　　　　（１，１）、（２，２）、（２，１）、（１，２）、（１，２）、　　　　　（１，２）、（１，２）、（１，２）、（１，２）、（２，１）、　　　　　（２，２）、（２，２）、（１，２）、（１，２）、（２，１）

２変量データを手にした時の　　　　　　　分布の特徴の記述－３２変量データを手にした時の　　　　　　　分布の特徴の記述－３ • 散布図とは、例えば、千野のホームページの講義ノートの中の「データ解析/基礎と応用」の１．２．３節　「はずれ値の相関係数への影響」の項にあるような図である。

２変量データを手にした時の　　　　　　　分布の特徴の記述－４２変量データを手にした時の　　　　　　　分布の特徴の記述－４ • データが名義尺度レベルの場合には、うえで紹介した分割表（クロス表）をもとに、２変量間の連関を表すための以下のような多くの指標がある。 • それらは、例えば、統計学辞典（東洋経済、１９８９、pp.341-343）を見ると、以下のように各種の指標がこれまでに提案されていることがわかる：

２変量データを手にした時の　　　　　　　分布の特徴の記述－５２変量データを手にした時の　　　　　　　分布の特徴の記述－５ • それらは、　（１）カイ２乗統計量系指標（ピアソンのカイ２乗統計量、　　　クラメールのV、チュプロウの T、ピアソンの一致係数 C、尤度比カイ２乗統計量）　（２）予測関連指標（グッドマン・クラスカルの予測関連　　　　指数）　（３）その他、ヘイズの不確実性係数、コーエンの一致　　　係数など。

２変量データを手にした時の　　　　　　　分布の特徴の記述－６２変量データを手にした時の　　　　　　　分布の特徴の記述－６ • 一方、データが順序尺度レベルの場合には、２変量間の順位相関・関連係数を表すための以下のよう　な多くの指標がある。例えば統計学辞典（東洋経済, 　１９８９、pp.338-340）。 • それらは、　（１）ケンドールの順位相関係数　（２）スピアマンの順位相関係数　（３）ソマーズの関連指数、その他　である。

２変量データを手にした時の　　　　　　　分布の特徴の記述－７２変量データを手にした時の　　　　　　　分布の特徴の記述－７ • 最後に、データが間隔尺度レベルの場合には、２変量間の相関関係を表すための以下のような指標がある。例えば統計学辞典（東洋経済、１９８９、pp.334-337）を見ると、 • それらは、　（１）共分散　（２）ピアソンの（偏差積率）相関係数　（３）偏相関係数、重相関係数、偏回帰係数、その他　である。

２変量データを手にした時の　　　　　　　分布の特徴の記述－８２変量データを手にした時の　　　　　　　分布の特徴の記述－８ • この授業では、これらのうち、　　（１）名義尺度レベルの対データの場合の代表的な連関の関連性の検討のための統計量であるピアソンのカイ２乗統計量と、　　（２）間隔尺度レベル以上の対データの場合の代表的な２変量間の関連性の指標である共分散及び相関係数についてのみ、簡単に触れる。

第１日目第２時限の学習目標

第１日目第２時限の学習目標

Presentation Transcript