240 likes | 396 Views
第 2 章 Ⅱ 特性値による記述 (増補版). 統計学基礎 2010 年度. ※ 以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。. Ⅱ 特性値による記述. 1) 代表値(中心的傾向). ある集団についてのデータ(例えば 50 人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の 3 種類がある。. ⅰ) 算術平均. 算術平均 = データの合計 ÷ データ数. (例) 10 人のテストの点数.
E N D
第2章Ⅱ 特性値による記述(増補版) 統計学基礎 2010年度 ※ 以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。
Ⅱ 特性値による記述 1) 代表値(中心的傾向) • ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 • 中心的傾向をあらわす数値として、 • 算術平均 • メディアン(中央値) • モード(最頻値) の3種類がある。
ⅰ) 算術平均 • 算術平均 = データの合計 ÷ データ数 (例) 10人のテストの点数
ⅱ) メディアン(中央値、中位数) • メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン
ⅲ) モード(最頻値) • モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 • データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。
ⅳ) 各代表値の特徴 • 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 仮想データ • この5人の収入の算術平均は • メディアンは、この場合、小さい順に並んでるので • モードは、 • よって、算術平均は24、メディアンは22、モードは20となる。
次に、裕福なFさんがこの5人に加わったとする。次に、裕福なFさんがこの5人に加わったとする。 仮想データ • この6人の収入の算術平均は • メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 • モードは、 • よって、算術平均は30、メディアンは25、モードは20となる。
次に、より裕福なGさんがこの6人に加わったとする。次に、より裕福なGさんがこの6人に加わったとする。 仮想データ • この7人の収入の算術平均は • メディアンは、真ん中である。 • モードは、 • よって、算術平均は200、メディアンは28、モードは20となる。
貯蓄現在高が算術平均(1638万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである988万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。貯蓄現在高が算術平均(1638万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである988万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 • 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない)ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない) 左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が1つであれば、モードもこれに一致する。
<正規分布> • 算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 • この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。
算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 • しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か) • しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう!
2) 散布度(散らばりの傾向) • 教員A • チャイムの5分後に必ず教室にくる。 • 教員B • チャイムと同時に教室にくることもあれば、10分以上遅れることもある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 • →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として • 分散、標準偏差 • レンジ(範囲)、四分位偏差 • などがある。
ⅰ) 分散 • 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では
算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数(10)で割る 640 分散
ⅱ) 標準偏差 • 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では
※2人の教員が教室に来る時間の例 (単位:分) 教員A
教員B となり、教員Bの分散の方が大きいことがわかる。 標準偏差も である。
<標準化と標準正規分布> • A君は、あるテストで英語が90点、数学が65点であった。 ⇒ 英語の方が数学より成績が良かった?? • 英語の平均点が80点、数学の平均点が50点だった。 ⇒ 英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い?? • 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値)
平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。 • 標準化は次のような変換である。このようにして求められた変量を標準化変量(zスコア) • 英語が平均80点、標準偏差10であり、数学が平均50点、標準偏差20であったとする。 • この例で、 英語は 数学は となり英語の方が成績が良いことになる。
zスコアの大小で、平均や分散の異なるものを比較することができる。zスコアは算術平均0、標準偏差1の変量であるが、これを算術平均50、標準偏差10の変量に変換したものが偏差値(Tスコア)である。(算術平均50、標準偏差10は100点満点のテストの点数のように見える)zスコアの大小で、平均や分散の異なるものを比較することができる。zスコアは算術平均0、標準偏差1の変量であるが、これを算術平均50、標準偏差10の変量に変換したものが偏差値(Tスコア)である。(算術平均50、標準偏差10は100点満点のテストの点数のように見える) • 偏差値はzスコアを次のように変換する。 • 先ほどの例では、 英語は 数学は となる。
ⅲ) レンジ(範囲) • レンジ ⇒ データの取りうる範囲 • レンジ = 最大値 - 最小値 • 10人のテストの点数の例では • 90 - 10=80 • データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 • このとき、次式で定義されるQを四分位偏差という。 ⅳ) 四分位偏差 q1 q2 q3 最大値 最小値
(例)9人のテストの点数が次のようになっていたとする。(例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値
<箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、9人のテストの点数を箱ひげ図に表した1例である。 最大値 q3(第3四分位点) 中央値 × q1(第1四分位点) 最小値