650 likes | 1.35k Views
パソコンを用いた統計解析テクニック. 弘前大学大学院保健学研究科 対馬 栄輝 鳴海研究所清明会鳴海病院 石田 水里 新潟県立リウマチセンター 水澤 一樹 テクニカル(実技)セミナー 6 10 月 2 日(金) 15:50 ~ 17:50 会場 3. セミナーの流れ. 差の検定と効果量の計算 分散分析 相関・回帰. R 起動後. 2 つの画面が起動する. コマンドプロンプト. R Console 画面. R コマンダー画面. 例題:立位体前屈データ .xls. N=36 で,立位体前屈と,それに影響すると思われる変数を評価したデータ
E N D
パソコンを用いた統計解析テクニック 弘前大学大学院保健学研究科 対馬 栄輝 鳴海研究所清明会鳴海病院 石田 水里 新潟県立リウマチセンター 水澤 一樹 テクニカル(実技)セミナー6 10月2日(金)15:50~17:50 会場3
セミナーの流れ • 差の検定と効果量の計算 • 分散分析 • 相関・回帰
R起動後 • 2つの画面が起動する コマンドプロンプト R Console画面 R コマンダー画面
例題:立位体前屈データ.xls • N=36で,立位体前屈と,それに影響すると思われる変数を評価したデータ • 立位体前屈が正規分布に従うか確認する
エクセルデータの準備 余分な情報 削除する • 最上行1行目に変数名を入れる • データは数字以外は入れない • データ以外の余計な値は削除しておく
エクセルからRコマンダーへ ① ② ③ ④R上でのデータ名を決める ここでは,エクセルと同じ名前 ⑤OKをクリック
エクセルデータを指定 • 指定後は [開く] をクリック
Rへのデータ読み込み データセットの編集ボタンで 取り込んだデータを表示出来る
カテゴリーデータへの変更 カテゴリーデータは因子変数へ変更しておく必要がある
カテゴリーデータを因子変数へ変換 ① ② ③
因子変数への変更 • 性別は0-1型の群分けデータ • 性別(①)を選び,[因子水準]は[数値で](②)にチェック,最後に[OK]ボタン(③) ① ② ③
警告 • この警告は無視して,YESをクリック
統計的検定のための重要事項 データ尺度 名義尺度,順序尺度,間隔尺度,比率尺度 分布の判断 正規分布か,それ以外か 有効な特性値を決める 代表値(平均,中央値) 散布度(標準偏差[分散])
正規分布の判定 正規分布? 正規分布ではない • 以前はヒストグラムを見て判断していた • シャピロ・ウイルク検定 • データが正規分布するか否かを検定 • p≧0.05で「正規分布に従わないとはいえない」=「正規分布する」と判断
正規分布の確認 • 立位体前屈のヒストグラムを描く ① ② ③ ④
シャピロウイルク検定① • 立位体前屈データ.xls(あらかじめRに読み込む) • 立位体前屈の変数が正規分布するかを検定 ① ② ③
シャピロウイルク検定② • 立位体前屈をクリックし(①),OKをクリック(②) ① ②
シャピロウイルク検定③ • ここがp≧0.05であれば,正規分布に従う,と判断 • この例はp=0.6755なので,正規分布に従うと判断
群別のシャピロウイルク検定① • 例えば,SLRのカテゴリー(SLRcat)別に立位体前屈のシャピロ・ウイルク検定をしたい
群別のシャピロウイルク検定② ① ③ ②
群別のシャピロウイルク検定③ ① ② ③
群別のシャピロウイルク検定④ シャピロウイルク検定の結果
対応のある標本の差の検定 対応のあるt検定 Wilcoxonの順位和検定 (パラメトリック法) (ノンパラメトリック法) 平均の差を比較 中央値の差を比較
対応のある標本の差の検定の選択 平均に意味があり,かつ正規分布に従うか? (Shapiro-Wilk検定) Yes No 対応のあるt検定 Wilcoxonの順位和検定
自動で差の検定を選択するメニュー • 付加メニューを使用すれば,簡単にできる
対応のある差の検定② • 比較したい変数2つを選んで(①②),[OK](③) ① ② ③
対応のある差の検定③ • シャピロウイルク検定を行って,有意でなければ • 対応のあるt検定,有意なときはウィルコクソンの検定を出力する • 効果量(エフェクトサイズ)も算出する
対応のある差の検定の注意点 パラメトリック・ノンパラメトリックの区別をきちんと行う
2標本の差の検定 平均の差を比較 中央値の差を比較 2標本t検定 Mann-Whitneyの検定 (パラメトリック法) (ノンパラメトリック法)
2標本の差の検定の選択 平均に意味があり,かつ正規分布に従うか? (Shapiro-Wilk検定) Yes No 2標本は等分散か? (ルビーンの検定) Mann-Whitneyの検定 p≧0.05 p<0.05 Welchの方法による 2標本t検定 2標本t検定
2標本の差の検定② • 群分けのデータ(①)と,差を見たい変数(②)を選んで[OK](③) ① ② ③
2標本の差の検定③ • 群ごとにシャピロウイルク検定を行う • データの数値(0,1)のラベルが付く • ルビーンの検定結果 • 2標本t検定,ウェルチの検定とマンホイットニー検定が自動で選択される • 効果量も出力
2標本の差の検定の注意点 パラメトリック・ノンパラメトリックの区別 2標本の分散が異なるときはWelch検定を使う Levene検定(またはF検定)で確認(次のスライド) 2群の対象数nが,大きく違わないようにする できれば1:2以内に
注意①分散は等しくなければならない 合併分散推定値が狂う 事前に等分散検定:Levene検定,F検定 有意差なし(p≧0.05)→2標本t検定 有意差あり(p<0.05)→Welchの検定
注意②例数の大きさの違いも影響 2標本の大きさが大きく異なってはならない 1:2~1:3以下が望ましいといわれるが… やや差が出難くなる程度(5%の検定で±1%程度) × 比較 n=5 n=100
インフルエンザの効果(里見ら,1989) この差は意味があるか? t検定:t値=5.73;p<0.00000001 Wilcoxon検定:z値=5.76;p<0.00000001
P値の意味 統計的有意の判定基準として使われる ** p<0.01 [歳] p<0.01で有意差がある 90 75.5±8.6歳 80 有意とは何か? 0.01とは何か? 82.7±5.4歳 70 60 歩行不可 N=19 歩行可 N=35
P値の意味:差の検定の場合 「平均に差がない」と仮定して,「差がある」と間違って判断する確率 差がない可能性が1%や5%のように小さい=差があると考えた方が妥当,という意味 「差がある・ない」の何れかを推定する指標 差の程度を表すものではない
有意な差とは?差=0が否定されただけ 差とは差が0でなければいくら小さくても良い バラツキが小さいほど,小さな差でも検出可能 差が小さくても有意 差が大きくても有意
わずかな差でも有意差が出る nが大きくなると,ほとんどは有意差がでる 有意差がある時は,差の程度を考える 80 80 60 60 40 40 20 20 歩行不可 歩行不可 歩行可 歩行可 p=0.048 [日数] p=0.732 52.954.7 52.954.7 n=19n=34n=608 n=1,088
差の程度を求める:効果量 • 先ほどの2標本t検定の結果を使う • ファイルはeffectsize.xlsを使用
effectsize.xlsによる効果量の計算 この部分に各群の人数,平均,SDを入力する 判定結果が出る
効果量 effect sizeの目安 • t検定(対応のある場合も2標本も同じ):Cohenのd • なし<0.2<小<0.5<中<0.8<大 • ノンパラの差の検定(対応のある場合も2標本も同じ) :r • なし<0.1<小<0.3<中<0.5<大 • 相関:相関係数rが効果量 • なし<0.1<小<0.3<中<0.5<大 • χ2検定:φ係数,クラメールのV • なし<0.1<小<0.3<中<0.5<大 • (重)回帰分析:重相関係数R2 • なし<0.2<小<0.13<中<0.26<大 • 分散分析:η2 • なし<0.01<小<0.06<中<0.14<大 (参考:水本 篤ほか,2008)
1元配置分散分析(ANOVA) 1つの要因(3群[水準]以上)で,差があるか 事務職 医療職 教育職 要因全体として,差があるかを検定 ノンパラメトリック法:Kraskal-Wallis検定
1元配置分散分析の手順 平均が使えて,かつ正規分布に従うデータか? Yes No Kraskal-Wallis検定 ANOVA P≧0.05 P<0.05 P<0.05 多重比較法 Tukey法 差なし 多重比較法 Steel-Dwass法