1 / 72

楽しく学べるデータ分析 午前:総論編+午後:ノンパラ検定編

2011/9/1 木 岡山県看護協会一般研修 資料. 楽しく学べるデータ分析 午前:総論編+午後:ノンパラ検定編. 岡山商科大学経営学部商学科 教授 田中 潔 (教学部長). スケジュール予定など. 午前 データ分析 総論編 9:30-10:20 頃 統計的データ分析とは 10:30-11:20 頃 統計分析のポイント 11:30-12:30   仮説検定の基礎          昼食 午後 データ分析 検定編 13:30-14:20 頃 仮説検定の実際 14:30-16:00   ノンパラ検定法. あなたはなぜデータ分析を迫られるのか?.

emory
Download Presentation

楽しく学べるデータ分析 午前:総論編+午後:ノンパラ検定編

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2011/9/1木 岡山県看護協会一般研修 資料 楽しく学べるデータ分析午前:総論編+午後:ノンパラ検定編 岡山商科大学経営学部商学科 教授 田中 潔(教学部長)

  2. スケジュール予定など • 午前 データ分析 総論編 • 9:30-10:20頃 統計的データ分析とは • 10:30-11:20頃 統計分析のポイント • 11:30-12:30  仮説検定の基礎 •          昼食 • 午後 データ分析 検定編 • 13:30-14:20頃 仮説検定の実際 • 14:30-16:00  ノンパラ検定法

  3. あなたはなぜデータ分析を迫られるのか? • 素直なあなたはスタッフから相談を受けます • アンケートの集計を手伝って→手伝いが中心に • あなたはエクセルが分かるから分析ね! • PCができることと統計が分かることを混乱した上司に恵まれた • 院内研究が回ってきた • 予算はあまりない、スタッフの協力にたよる • 学外・論文投稿が迫ってきた • 国内や世界標準での点検・確認

  4. その結果 • 断ることは許されない • 自分は統計を知らない→習っていないものがわかるものか • 私は理屈っぽく考えるのがイヤ! • 私は数学がいやで看護へ来たのに • 看護に統計はいらない • 調査では患者ひとり一人は援助できない •      統計ギライがこの世にまたひとり

  5. データ分析の背景 • 国勢調査や行政調査 • 国・県などの公的調査 • 国勢調査は統計法に基づく(2010年は調査年)http://www.stat.go.jp/index/seido/houbun2n.htm • 政府統計ポータルサイト(政府統計の窓口) • http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do • マーケティング(市場調査)・世論調査 • ある目的のため市場を調査する • アンケート調査 • 実験や臨床研究、業務改善 • 比較的小規模、実験データ

  6. 量か質か • 量的研究(学部卒レベル) • 通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査 • 量的研究の主目的は、市場の現況を把握すること • 質的研究(院レベル) • 通常のインタビュー調査、症例研究、観察など • 未知なる問題の場合、仮説を発見するために比較的小規模にて行う • http://www.geocities.co.jp/Technopolis-Mars/4688/ 南小樽病院 瀬畠さん

  7. 母集団と標本 • 母集団:未知、 標本:既知 • 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

  8. 悉皆(しっかい)調査 • 母集団の全員が標本として測定されたこと • 母集団サイズ=標本サイズ • 標本での分析結果がすべて母集団結果 • 標本を捉えることの意義 • 標本の示す傾向=母集団の中心的な傾向+個々の誤差

  9. 統計解析法の目的 • 記述統計: 平均、標準偏差、分散、グラフ • 推定・推測: 標本から母集団値を求める • 一般には標本値±誤差を決める • 予測: 時系列データから将来を推測 • 方程式を作成する • 記述統計: 標本を示す値やグラフで視覚化 • 検定・テスト: 比較し判定する、○×効果 • 多変量分析群 • 3つ以上の項目からなるデータを分析する

  10. 統計の中の個人・ひとり • 個人(表層へ出現)=  •   中心的な傾向(未知)+誤差(未知) • この中心的傾向または誤差を把握する。 • 私は60kg=標準体重+誤差 •   標準体重:仮に50kg •   誤差: 60-50=10kg • 実は、中心的傾向とは平均値のこと                             

  11. 多変量解析の目的 • ① いろいろな要因によってある項目を予測したい • ② 観測された複数の項目から総合的指標を作りたい • ③ ものや項目の関係を視覚化したい • ④ ものや項目を分類したい • ⑤ 項目間の関係や構造を知りたい

  12. 主な多変量解析手法 • 予 測: • 回帰分析、数量化1・2類、判別分析 • 指 標: • 回帰分析、数量化1~3類、主成分分析、因子分析 • 視覚化: • グラフ解析、数量化3・4類、主成分分析 • 分類: • クラスター分析 • 潜在構造: • 因子分析、共分散構造分析

  13. データの値: 4つの測定尺度 • 名義尺度                      情報量小 • 名前を区別するため 演算は出来ない • 1.男性 2.女性  度数表やクロス表は可 • 順序尺度 • ゆるい順序性のみ許す 演算は本来△ • 1.はい 2.どちらでもない 3.いいえ • 間隔尺度 • 絶対ゼロを定めない量 演算は加減のみ • ℃(摂氏)、カレンダー月 • 比率尺度 • 絶対ゼロを基準とした計測値 加減乗除可能 • 実験データ全て                      情報量大

  14. 行側(ギョウソク)と列(レツソク)側 •          →列側(項目、変数、変量) •   行側↓ •  (ケース)

  15. ケースと項目 • ケースとは1件の標本を示す • ケースは個体を示す • 時系列の場合時間変化 • 項目は列単位→1つの変数 • 1変数の集計や分析 • 1列ごとに処理するデータ • 2変数の集計 • 2列ごとに処理 • 多変数の処理 • 3列以上をまとめて処理

  16. 入力したデータ

  17. 有効数字について • 計算結果を小数点何桁まで取るべきか? • 答え • 測定値で影響されます。 • 身長160cmは「センチ単位」で測定されました。 • 160.1かも160.4かも知れません。 • 有効数字 小数点以下0桁 でした。 • そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう • 教訓 • 計算結果の有効数字は測定値よりも1桁多く

  18. 欠測値について • 計測されなかった、計測できなかった値 • 欠測値という • 表ソフトで欠測値には0ゼロを入力しない • エクセルの場合何も入力しない • セル値の削除はdeleteキーで • 0は計測値として計算してしまいます • 99や0など特定値を入れることは • 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

  19. 最初のデータ分析 • 記述統計量とは • 平均値 • 標準偏差 • 最大、最小値 • 中央値 • 度数集計表

  20. 素データ~統計量概念図       ちらばり(分散や標準偏差) ボール&スティックモデル × 代表値(平均値や中央値)

  21. エクセルによる基礎統計量 • 関数で求める • 平均 =AVERAGE(範囲指定) • 標準偏差 =STDEV(範囲指定) • 中央値 =MEDIAN(範囲指定) • 最大値 =MAX(範囲指定) • 最小値 =MIN(範囲指定)

  22. 2つの項目の基礎集計     投げ1のヒストグラム

  23. 投げ1と投げ2を書き分ける

  24. 散布図は2項目の関係図

  25. グラフ点を右クリック→近似曲線の追加メニューグラフ点を右クリック→近似曲線の追加メニュー

  26. 散布図→単回帰分析 • 回帰直線y=x 相関係数r=0.43

  27. ここに5つのデータ 2、10、1、2、1がある 11 22 10 2+10+1+2+1=16 算術平均=16÷5=3.2 3.2は5つのデータを表現する代表値の一種 算術平均の示すもの

  28. 2、10、1、2、1         これを 小さい(大きい)順に並び替える 1、1、2、2、10 この真ん中番目を中央値(メジアン)と呼ぶ この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な値(極値)に左右されにくい →頑健(ロバスト)な代表値 算術平均3.2 中央値2 もう1つの代表値 中央値

  29. グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2  この2つに有意な差があるか?→t検定 2グループの代表値を比べる

  30. 群 平均 SD N A  3.23.85 B  5.28.25 等分散性の検定 有意確率2.3%(有意)  2群のばらつきは等しくない 平均値差のt検定 等分散仮定する 6.4% 等分散仮定せず 6.4% いずれも平均値差は有意でない この2群で平均値3.2と5.2は同程度と見るか?否か? 2群のばらつきは 等しくないと判定 ばらつき等しくない仮定の下で、 2つの平均値が等しいことを否定せず(つまり同程度) 2つの平均値を比べる2群の平均値差の検定(t検定)

  31. マン-ホイットニ検定による2群の比較 • 中央値  A:2  B:2の比較 • 有意水準91.1%(有意差なし)→両群は同じ

  32. データ分析のポイント • □ 調査の種類、母集団と標本のちがい • □ 統計手法は目的に応じてたくさんある • □ 行と列→ケースと項目、測定尺度 • □ 表ソフトへのデータ入力様式 • □ 基礎統計のエクセル関数 • □ グラフ→2項目 散布図と回帰式 • □ 検定の一例t検定 • → 次は検定をマスターしよう

  33. 統計的検定法(群) • 統計手法の中で「検定(Test)」は医療統計でよく使われます。 • 薬効評価、効果判定のために用いられます • 以前は、平均値を比較するパラメトリック手法が用いられましたが、最近ではノンパラメトリック検定が多く用いられています。

  34. 統計的検定はどんなもの • ある仮説(○=△)を判定する • 例: この実験結果=160.0 • 例: 群1の平均=群2の平均 • 判定結果は採択、または棄却の2分法 • 採択とは「この仮説を積極的に否定しない」 • (厳密には仮説を認めたくないがやむを得ない) • 棄却とは「この仮説を積極的に否定する」

  35. 看護に代表的な検定 • t検定 • ある測定データの平均値がある値かどうか • 仮説: 測定データの平均値=46.7 • 2群の平均は等しいとみなせるか • 仮説: 群1の平均=群2の平均 • カイ2乗検定 • クロス表に傾向や関連性があるか • 仮説: このクロス表の度数は同じか

  36. (統計的)仮説検定の流れ • ある検定手法を選択する(パラでもノンパラでも) • 帰無仮説H0:とは • 否定する(だろう)ための仮説 • 帰無=無に帰する=否定を期待する • 対立仮説H1:とは • 帰無仮説以外の結果 • H0を否定するだけなので積極的な採択はしない • H0:とH1:を対にして用意する • 分析データを統計ソフトにかける→有意水準を求める • 有意水準の値に応じてH0かH1かを判定する • 目的に応じて手法はたくさん存在する

  37. 仮説の立て方 • 1.自分の持っている仮説(作業仮説ともいう)を対立仮説H1とする • 2.H1の否定(逆)をH0とする • 3.H0は○=△のように等号で作成するのがよい • 4.H0:○=△とした時、3種類のH1が考えられる •    H1その1: ○>△ 片側検定 •    H1その2: ○<△ 片側検定 •    H1その3: ○≠△ 両側検定

  38. 仮説の事例 • 新薬Bは薬Aより効果あることを証明したい • H0は等号関係で作成すると良い • H0: 新薬B=薬A(同じ、効果なし) で決まり! • H1には3つの作り方あり • ① H1: 新薬B>薬A 優れる    片側 • ② H1: 新薬B<薬A 劣る     片側 • ③ H1: 新薬B≠薬A 同じでない 両側 • 「効果ある」なので通常③を採用

  39. 仮説H1に方向性があるならば両側検定 • 関係があるかないか •   ない= ある≠   両側検定 • 正(負)や大小の関係があるかないか •   ない= ある>   片側検定 • 優れている(劣っている) •   同じ= <や>   片側検定 • 同じか否か •   同じ= 同じでない≠ 両側検定

  40. H0とH1の例 • H0: 日本人の平均160センチ 平均=160 • H1: 160センチではない(何センチかは不明) • H0はハッキリと1点で指定するのが普通(点指定) • H1は指定された1点以外のすべて(だからはっきりと値が判定できない) •          ○ 残り全てがH0 H0

  41. 棄却と採択 • H0が明らかに成立しないならば棄却 • つまりH1を採用 • H0は帰無したいがどうしても棄却できない状態のことを採択(=積極的には帰無・棄却しない)という • つまりH0を採用する

  42. 検定に見る計算と判定 • 計算: 統計ソフトなどを使用する • 判定: 出てくる結果の有意確率か有意水準の値により判定 • 有意水準>0.05 有意水準5%以上で採択 • 5%以下ならば棄却(有意、SIG.)←差あり • 0.05~0.015%有意  * 星1つ • 0.01~0.0051%有意  ** 星2つ • 0.005より小 0.5%有意 *** 星3つ

  43. まとめましょう • 正規分布を仮定できそうな時 • 平均値に関するt検定 • 正規分布を仮定できそうでない時 • ノンパラメトリックな検定法 • 仮説は次に固定すると理解し易い • H0: A=B H1:A≠B(両側検定) • 計算は統計ソフトやWebサイトで行う • 有意かどうかの判定は有意水準で行う

  44. 検定の実際に慣れる

  45. 統計ソフトについて • 記述統計、グラフなどはエクセルで十分 • 検定、多変量分析となると専用ソフトが望ましい • http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで間に合うことも多い。いつまで続くかは不明 • 市販ソフトとしては • PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 • ライバル会社にSASがある。安価版としてJUMPも有名 • エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない • フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!研究者向け

  46. 青木サイト使用の留意点 • 検索エンジン 群馬 青木 → おしゃべりな部屋 • 青木サイトの統計処理の多くには「Java技術」が使われている • Javaはサイトで計算処理を行うための仕組みであり購入後各自で導入するもの • 施設のPCではセキュリティ保護の観点からJavaを導入していないものもあるので、青木サイトが利用できない場合がある • 施設PCで利用できない場合、他の統計パッケージやJava導入した個人PCを利用する

  47. もしもPCでこんなエラーが出たら あなたのPCのJAVAという仕組みが古いなどの原因で、警告が出たものです。「いいえ」を選んでうまく動作すればいいですね。

  48. 医療統計向けソフト比較http://www.kenkyuu.net/comp-soft-01.htmlより引用医療統計向けソフト比較http://www.kenkyuu.net/comp-soft-01.htmlより引用 SPSS社はIBMに吸収のため、2009現在PASWに名称変更

  49. 2グループの平均値差検定(通称t検定) • 仮説は以下のとおりに立てる • H0: 平均1=平均2(2つの平均は同じ) • H1: 平均1≠平均2(同じでない)→両側 • 注意 • H0: 平均1≠平均2(同じでない) • H1: 平均1=平均2(2つの平均は同じ) のように逆には立てません。帰無仮説H0は等号関係で作ります!

  50. パラメトリック検定 • 集めたデータが正規分布しそうな場合に適 • 検定力は強い • 平均値と標準偏差に関する検定がおも • 2群(実験群と対照群)の平均値差検定 • =通称:t検定が有名

More Related