STATWEB 統計セミナー

STATWEB 統計セミナー 2014-6-22 担当：若田　忠之

本日の内容 • なぜ“統計”が必要か/ “統計”の重要性 • “データ”の基礎｢4つの尺度｣ • 平均値・分散・標準偏差(説明) • 平均値・分散・標準偏差(演習) • t検定(説明) • t検定(演習) • 標準化・相関・回帰分析(説明) • 標準化・相関・回帰分析(演習) • 30分 • 30分 • 50分 • 50分休憩：適宜

なぜ“統計”が必要か？ • ｢何かの傾向を示すだけならわざわざ統計処理などしないで、アンケートの結果などで十分ではないか？｣ • 例えば、この後紹介するｔ検定は平均値やそのデータのバラツキを使って、その差が意味のある差なのか、偶然見られている差なのかを検討するデータの｢科学的な裏付け｣をとる役割が統計の目的の1つ

なぜ“統計”が必要か 統計学とは • 数量的比較を基礎として、多くの事実を統計的に観察し、処理する方法を研究する学問統計とは • 集団における個々の要素の分布を調べ、その集団からの傾向・性質などを数量的に統一的に明らかにすること広辞苑　第5版より

なぜ“統計”が必要か • 何かに差があると言いたいときには｢証拠｣が求められ、その裏付けとして統計学を使うことができる • 統計学のもう一つの重要な役割｢データを分かりやすくする｣ • 平均値はデータの中心、標準偏差はデータのバラツキといったように、そのデータの性質や特徴をより簡潔に示すことができる • さらに、複雑な分析をすることで今までは見えていなかったような面を捉えることもできる例えば、相関や回帰分析では、複数の事象の関連を数値　で表したり、予測したりすることができる

なぜ“統計”が必要か 統計学の役割 • 科学的な証拠｢裏付け｣をとる • データを分かりやすくし、ただの集計では見えなかった面を見えるようにするこのセミナーでは、統計の数学的な背景よりも、｢その分析が何の為の分析なのか｣に焦点を当てます。自分で分析を行うときには分析の手順や内容を知っていないとできませんが、まず｢何のための分析なのか｣、｢その結果は何を示すのか｣を分かっていないと、どうしようもありません。そこで、まずは｢結果を読み取れる｣といった部分をマスターしましょう。

データの “バラツキ” が異なるなぜ“統計”が必要か Q：2つのクラスに100点満点の学力テストを行った結　果、どちらのクラスも平均点が50点でした。 2つのクラスの理解度は同程度と言えるでしょうか？ Aクラス平均：50点 Bクラス平均：50点

なぜ“統計”が必要か • 統計を料理に例えると、次のようなイメージです。

“データ”の基礎｢4つの尺度｣ ｢データ｣とは • 何らかの意図をもって得られた数値データの分類 • 量的変数・・・数値で表されたデータ　(順位、間隔、比率) 5段階評価の得点、長さ、重さなど • 質的変数・・・数値であらわされていないデータ　(名義) アンケートの自由回答、感想など

“データ”の基礎｢4つの尺度｣ 名義尺度・・・名前を数字に置き換えたもの｢男性＝1、女性＝2｣、｢文学部　＝101、医学部＝201｣など数字の大きさに意味はなく、仮に｢男性=20、女性=0｣でも問題ない順序尺度・・・順番に意味はあるが、その間隔に意味がない。マラソンの順位を決めるときに、1秒差でも10秒差でも1位と2位の関係は変わらない間隔尺度・・・順序に加え、その間隔に意味があるもの。定義上の｢0｣が存在するが、｢何もない｣という意味の｢0｣ではない。温度は28度と27度の差は｢1度｣、-5度と-4度の差も同じ｢1度｣比率尺度・・・間隔にも意味があり、｢0｣が存在する。長さ｢0m｣、重さ｢0g｣は長さも重さも｢何もない｣という意味での｢0｣が存在する。事実上での負の値はない

“データ”の基礎｢4つの尺度｣

“データ”の基礎｢4つの尺度｣ 例：マラソン大会でのデータ間隔尺度名義尺度順序尺度比率尺度 ※好感度はそれぞれの選手の好感度を1～5段階評価して平均したもの。

平均値・分散・標準偏差

平均値・分散・標準偏差 代表値平均値・・・データの総和をデータ数の総和で割ったもので、データの中心を示す最も一般的な代表値中央値・・・データを最大値から最小値まで並べた中での一番中心の値それぞれの値の間隔の大きさに関わらず、その順序に着目した値中央値を境に上下半分ずつデータがあることを示すデータが左右対称でない場合は平均値よりも中央値の方が優れている最頻値・・・文字通り最も頻繁に出現する値のこと

平均値・分散・標準偏差 例： 15名の対象にある企業のイメージを5段階評価で評価してもらった一つのデータでも、用いる代表値によって、値が変わってきます。それぞれの代表値の特徴をとらえて、適切なものを用いましょう。

平均値・分散・標準偏差 散布度 • データのバラツキ具合を示す • 代表値ではデータの｢見た目｣を示すとすると、散布度はデータの｢質、中身｣を示した値といえる • 散布度を見ることで、それが実際にはどんなデータなのかを知ることができる重要な値

平均値・分散・標準偏差 偏差・・・平均と個々のデータの差分散・・・偏差を二乗して合計し、データ数で割ったものデータのバラツキを示すが、算出した値が元のデータの範囲よりも大きい場合があり、直感的にわかりずらい標準偏差・・・分散の平方根。値の範囲を分散からもとのデータの範囲に戻したもの平均値から±どれくらいの範囲にデータが散らばっているかを示す標準偏差が大きいほどバラツキが大きく、小さいほどバラツキが少ないつまり、標準偏差が大きいデータの平均値はたまたまその値になっただけの可能性が大きくて信用できない

平均値・分散・標準偏差 偏差平均=53.6 分散=774 標準偏差=27.8 　平均が｢53.6｣に対して、バラツキを見ようと思ったときに分散をみると｢774｣と値の範囲が元の単位と異なる為、分かりづらい。　そこで、標準編差を用いると｢27.8｣なので、このデータは平均の｢53.6｣を中心に｢±27.8｣の範囲に大体のデータが散らばっていることがわかる。

平均値・分散・標準偏差 演習このデータの平均、標準偏差を計算してみましょう

検定(t検定)

検定と分析 • まずは、検定と分析の違いについてです。ｔ検定、χ2検定、分散分析、回帰分析、因子分析・・・など、統計の中では、｢検定｣と｢分析｣がある大まかな違いとしては、 • 検定は｢データの差を比較するもの｣ • 分析は｢データを使って、新しく何かを見るもの｣ • ｢検定は答えが1つ｣、｢分析は様々な答えがある｣とも言える

検定 • 検定では、それぞれの｢統計量｣という値を算出して、それを｢境界値(臨海値)｣と比較することによって、それぞれのデータに｢差があるかどうか｣を検討し、データに｢有意な差がある｣という統計的な裏付けをとることが検定の役割 • 有意な差(有意差)とは、｢統計的に意味のある差｣を指す • ｢有意差あり｣となった場合は、｢このデータの差は偶然ではなく、何かしらの要因に基づいてこういう差がある｣と解釈する • ｢有意差なし」となった場合は、｢今回差があるように見えるのは偶然で、本来は差がない｣という解釈となる

検定帰無仮説と対立仮説(研究仮説) • 検定を行う上では｢帰無仮説｣と｢対立仮説｣が存在する。そしてそれは基本的にすべての検定に共通である • 帰無仮説は｢無に帰る｣仮説で、棄却することを前提とした｢比べる群に有意な差はない｣という意見を支持する仮説 • 対立仮説は、｢比べる群に有意な差がある｣という意見を支持する仮説帰無仮説・・・有意差はない(今回偶然こういう結果になっただけ) 対立仮説・・・有意差がある(偶然ではなく、何かしらの要因によってこういう結果になった)

検定統計量　統計量とはｔ検定でいえば｢ｔ値｣を指し、それぞれの検定で算出する独自の値のこと。この値を次の境界値と比べることで、有意差の有無を検討する境界値(臨界値) それぞれの検定で定められた有意差の有無を分ける境界の値のことこの値と統計量を比べることで、有意差の有無を判断する第1種の誤り(Type1 error) 　本当は差が有意ではないのに、有意であると誤認すること有意水準(有意確率) 　有意水準とは、どれくらいの確率で有意であるかを示す水準のことで、5％水準、1％水準などがあるこの水準は、上記の第1種の誤りを犯す確率と同義であり、一般的に5%以下で｢差がある＝有意である｣と判断できる

検定対応のあり・なし • 要因、水準と一緒にもう一つ重要なのが、対応のあり・なしでで、これは平たく言うと同じ人のデータを比べるのか、違う人のデータを比べるのかの違い • 男女や国籍の場合男と女は違う人、日本人、アメリカ人、イタリア人も違う人なので、対応なし • 10人の人に3種類のケーキを食べてもらって、それぞれケーキについて評価したものを比較する場合など、同じ人のデータを比べる場合には対応あり対応の有無で分析の選択が異なる

ｔ検定 • 2つのデータの平均値の差の検定平均値に差がある場合に、有意意な差であるかを調べる結果の記述ｔ(98) = 2.068, ｐ < .05 [ｔ(df)=ｔ値，有意確率] 例ある企業の支店間の年間50週の平均売り上げについて、支店Aは500、支店Bは460であった。2つの支店の平均値についてｔ検定を行った結果、5％水準で有意差がみとめられた(ｔ(98) = 2.068, ｐ < .05)。以上のことから支店Aのほうが平均的に成績が良いことが分かる

ｔ検定の種類 • 得られた標本が既知の平均との差の検定・・・1標本のt検定① データの対応の有無で用いるt検定が異なる • 対応がある場合・・・対応のあるt検定② • 対応がない場合・・・2標本に対するt検定　　　　　　　　　　　　　　　　　等分散を仮定できる③ 　　　　　　　　　　　　　　　　　等分散を仮定できない④ 等分散の仮定については、F検定を用いて確認をする

F検定 2つデータが等分散をなしているかを調べる　結果の記述 F(24,24) = 2.54, ｐ < .05 [F(分子のdf,分母のdf) =F値，有意確率] 例ｔ検定を行うにあたり、実験群、統制群についてF検定を行ったところ、等分散は認められなかった(F(24,24) = 2.54, ｐ < .05)。

ｔ検定・F検定 演習 t検定、F検定を行ってみましょう

標準化・相関・回帰分析

標準化 • どんなデータでも、平均を｢0｣、標準偏差を｢1｣にする • 平均と標準偏差を揃えることで、範囲が違うデータでも比べることができる • 例えば、身長と体重を比べる、ドルと円を比べるなど例：同じケーキを片方は5段階評価、もう一方は7段階評価で評価した結果を比較する

相関 • 2つのデータの関係の度合いを表す • 例えば、車の売り上げと景気のよさ、その日の気温と飲み物の販売数など • このような片方が上がるともう一方もつられて動くような関係は、あくまでも2つの関連をあらわす指標であって因果関係まではわからない（大まかに推測はできますが） • 車と景気を例にすると、景気が上がったから車が売れたとも、車が売れたから景気が上がったという場合もありえる • 実際には相互に関係している場合がほとんどなので、そういったあたりは状況考察や検定、分析などで明らかにする必要がある

相関 • 相関は相関係数という数値で表す。(記号は｢ｒ｣) • 範囲は　–1～1 正の相関(正の値) • 正の相関とは車の例のように一方が上がればもう一方も上がる、一方が下がればもう一方も下がるといったように、2つの変数が同じ動きをする関係を表す負の相関(負の値) • 負の相関とは、正の相関とは逆に、一方が上がればもう一方が下がり、一方が下がればもう一方も上がるといった、逆の動きをする関係を表す無相関(０に近い値) • 2つの変数の動き方に特徴がない関係を表す

相関相関の強さ • ｢0～±0.2｣　　　・・・　無相関 • ｢±0.2～0.39｣　・・・　低い相関 • ｢±0.4～0.69｣　・・・　中程度の相関 • ｢±0.7～1.0｣　　・・・　高い相関相関係数が｢ｒ＝0.9｣の場合、｢強い正の相関がある｣と言える反対に、｢ｒ＝-0.5｣の場合は｢中程度の負の相関がある｣となる

相関 • 例　アイスコーヒーの売り上げと関連する情報

相関

相関※値は標準化してあります 正の相関　r=.96 負の相関　r=-.87 無相関　r=.06 正の相関　r=.96

相関演習相関係数を求めてみましょう

回帰分析 回帰分析の目的 • データ①とデータ②の関係を調べること • データ①からデータ②を予測する予測式を作ること • いづれも、｢回帰式｣と呼ばれる式を作って結果を見る回帰式 • 回帰式①：Y = aX + b　・・・単回帰 • 回帰式②：Y = aX1 + bX2 + C　　　・・・重回帰

回帰分析 従属変数と独立変数 • 独立変数(X)・・・影響を与えるデータ(予測するための値) • 従属変数(Y)・・・影響を与えられるデータ(予測される値) 単回帰と重回帰 • 単回帰は予測するための値である独立変数が1つ • 重回帰は予測するための値である独立変数が2つ以上偏回帰係数 • 分析結果で見るべき値は、｢係数｣と呼ばれる値で、回帰式では｢a｣、｢b｣の部分にあたる。この部分が影響力を示す Y= 0.82X1 + -0.68X2 + 0.2 従属変数独立変数偏回帰係数

回帰分析 重決定係数｢Ｒ2｣ • 回帰式がどれくらい当てはまっているかを示す値 • 見方は相関と同じで｢0～1｣までの範囲で表される • ｢1｣に近いほど当てはまりがよく、｢0｣に近いほど当てはまりが悪い。 • 　※Cの部分はあまり着目しません

回帰分析 • 単回帰：アイスの売り上げと気温の関係 • Y= 57.544 + 13.857X (R2 = .60)

回帰分析 • 単回帰：アイスの売り上げと気温の関係 Y = -48.004 + 4.449X1 + 458X2 (R2 = .837) Y =0.000 + 0.258X1 + 0.723X2 (R2 = .837)

回帰分析 演習回帰分析を行ってみましょう

本日のまとめ なぜ統計が必要か？ • 科学的な証拠｢裏付け｣をとる • データを分かりやすくし、ただの集計では見えなかった面を見えるようにする 4つの尺度

本日のまとめ 平均・標準偏差 • 平均値だけでなく、データのバラツキである標準偏差を見ることによって、データの質を理解する t検定 • 比較する平均値を差とみなしてよいのかを確かめる相関 • 2つの変数の関係性を数値で表す回帰分析 • 変数間の関係性を予測する式を構成することができる • 単回帰と重回帰があり、重回帰では説明する変数間の影響の度合いなどを比較することができる統計学を用いることで多角的な視点で物事をみることができるようになる

STATWEB 統計セミナー

STATWEB 統計セミナー

Presentation Transcript