特定保健用食品のヒト試験における統計解析方法の考え方と注意点

２０１３．９．１９ 特定保健用食品のヒト試験における統計解析方法の考え方と注意点成蹊大学理工学部情報科学科岩崎　学 iwasaki@st.seikei.ac.jp

Agenda • Tea Tasting Lady • 観測データと確率構造の例 • 統計的データ解析の流れと統計的な考え方 • 代表的な統計手法 • コメント集

Tea Tasting Lady - 1 • The most famous lady in the (statistical) world. • 英国では，ミルクティーを作る際，ミルクを先に入れてから紅茶を注ぐものとされているようである． • 昔，英国であるご婦人が「私は，ミルクを先に入れたかあるいは紅茶を先に入れたかは飲めばわかる」と発言し，その真偽を確かめるため実験を行なう事になった． • どういう実験を行ない，どういう結果が出ればこのご婦人はどちらを先に入れたかの「判別力」ありと判断できるであろうか． • わが社で開発した商品はトクホとして有効性があるだろうか（審査を通るだろうか）．

Tea Tasting Lady - 2 • 紅茶カップを n個（偶数）用意し，半分にはミルクを先に入れ，残りの半分には紅茶を先に入れ，それらをランダムな順序でそのご夫人に飲んでもらい，どのカップがミルクを先に入れたものであるかを判定してもらう． • その結果，正解となったカップ数を mとする． • ご婦人が正しく言い当てる確率を pとする． • 確率は各試行で一定，かつ結果は独立であると仮定． • ご婦人の判別力が全くないという仮説（帰無仮説）H0および判別力があるという仮説（対立仮説）H1は H0 : p = 0.5 vs. H1 : p > 0.5 となる．

Tea Tasting Lady - 3 • ２つの可能性 (1) n個中，「ミルク先」がいくつあるかを知らせない． (2) n個中，「ミルク先」が n/2 個あることを知らせる． • 正答数を Xとするとき，m個以上正解する確率 • (1) では試行回数 n，確率 0.5 の二項分布 B(n, 0.5) • (2) では，超幾何分布 H(m, n/2, n)

Tea Tasting Lady - 4 • 確率 p1もしくは p2（P値）が a = 0.05（有意水準）以下のときにご婦人の判別力ありと判断（帰無仮説H0 : p = 0.5 を棄却） • 帰無仮説が正しい（判断力がない）とすれば，このような結果が起こるはずがない • 表：いくつかの nに対し，判別力ありと判断できる mの最小数，およびその時の確率（有意確率） • n= 4 では，すべて正解 (m = 4) であっても判別力ありとは判断されない • n= 6 では，全部正解であれば判別力ありと判断 • n= 10 のときは，(1) では m = 9 m= 10 で判別力ありと判断 • 実際上，nは大きくできない

観測データと確率構造 • N人を被験食品群，対照食品群にそれぞれ m人，n人ずつランダムに割り付け，有効かどうかを調べる • 仮説： P1 = P2vs. P1 P2

この場合はどう判断 • 実験 A • 実験 B

カイ２乗検定 • 検定統計量： • D = (ad – bc) は 2  2 行列の行列式（逆行列が存在するための条件 a : b = c : d  a/m = c/n） • 判断基準：Y 3.84 のとき差ありと判断 • 3.84  (1.96)2は，自由度１のカイ２乗分布の上側５％点．

結果の判断 • Y = 1.67 < 3.84 • 被験食品と対照食品とでは有効率に差があるとは言えない • Y = 8.33 > 3.84 • 被験食品と対照食品との間には有効率に差があると言える

統計的データ解析の流れ • 研究目的の設定 • データ収集法の立案：実験，観察研究，調査 • データの収集（モニタリング） • データの電子化 • データのチェック（クリーニング），マージ • データの集計とグラフ化（予備的検討）：記述統計 • 統計的推測ないしは予測：推測統計 • 分析結果のプレゼンテーション：文書化，口頭発表 • 意思決定（終了もしくは最初に戻る）

研究目的の設定 • 「統計」では，研究目的の設定は，具体的に • 「試験食品の有効性を立証するため」では駄目 • 用量設定試験：関与物質の配合量の決定 • 有効性検証試験：プラセボ食と被験食の比較 • 安全性試験：通常，３倍量の下での安全性 • 何をどう測るか．・・・「統計」では解答不可能な問い • しかし「統計」は，技術的に，測定項目の（統計的，数学的）性質を評価できる． • 食品の特長をうまく表現する．

データ収集法の立案 • 比較対照試験：Randomized Controlled Trial • 並行群間試験 parallel comparative trial • クロスオーバー試験 cross-over trial • 評価項目の設定 • 連続型：コレステロール，血糖値，血圧 • カウント型：排便回数， • ２値型：（有効，無効） • 摂取前値，摂取後値（１回あるいは複数回） • 例数設計：有意水準（α），検出力（１－β），効果の大きさ • プロトコルに詳細に記載！

統計的検定の３要素 • 仮説を立てる • 帰無仮説 (H0)：差はない，偶然的変動に過ぎない • 対立仮説 (H1)：差がある．偶然的な変動とは言えない • 片側仮説 H1 : θ > 0 • 両側仮説 H1 : θ ≠ 0 • 検定統計量の選択（パラメトリック，ノンパラメトリック） • 検定に用いる値（関数） T = T(X1, . . . , Xn) を選択し，データから t* = T(x1, . . . , xn) を計算 • 標本平均，標本比率，t 統計量， • 統計的有意性の評価（P値の計算と判断） • 確率 P = Pr(T ≧ t*) を評価し（P値），P が小さいとき帰無仮説を棄却 • 有意水準 α：P の小ささの基準．α = 0.05 が普通． • P > α のとき帰無仮説を棄却しない．帰無仮説の正しさの証明ではない

信頼区間 • パラメータ θ の信頼係数 95% の信頼区間 (θL, θU) • データから定義式に基づいて区間 (θL, θU) を作成したとき，100回中95回はその区間がパラメータの真の値を間に含む • 信頼係数が高く，区間幅が短いのが理想 • 信頼係数を高くすると区間幅は広がり，区間幅を狭めると信頼係数が低くなる • 対応策：計測を精度良く行う．サンプルサイズを増やす 95% 信頼区間がパラメータ値 θ0を含まない　　⇔ H0 : θ = θ0 vs. H1 : θ ≠ θ0の検定が有意水準 5% で有意

連続型データ（２群の比較） • パラメトリック：２標本ｔ検定　　２つの正規母集団間で，分散は等しいが未知の仮定での，平均値間の検定 • 正規性の仮定は必ずしも厳密でなくてよい． • ノンパラメトリック：ウィルコクソン検定（マン＝ホィットニー検定）　　２つの母集団間で，位置パラメータ（中央値など）の違いを検定．分布型の仮定は必要ない（ノンパラメトリック検定） • 共分散分析 (analysis of covariance = ANCOVA)：処置前値や背景因子を共変量に取った回帰モデルに基づく検定

連続データ（多群の比較） • パラメトリック：分散分析 (analysis of variance = ANOVA) 　　３つ以上の正規母集団で，分散が等しいという条件の下，　平均値間の差異を検定 • 正規性の仮定は厳密には必要ない • 有意差が見られても，どこに差があるのかまでは分からない • ノンパラメトリック：クラスカルのＨ検定　　順位に基づく検定で，分布型の仮定は不要 • 多重比較 (multiple comparison) 　想定する対立仮説ごとに種々の検定法　シェッフェ法，ダネット法，テューキー法，．．．

カウントデータ • 有効率の比較：２つの二項分布の比較（二項確率の計算に基づく検定，正規近似による検定） • ２×２分割表における検定：フィッシャー検定，独立性のピアソンカイ２乗検定（イェーツの補正を入れる・入れない） • ポアソン回帰（負の二項回帰）：稀な事象の生起確率に回帰モデルを想定（一般化線形モデルの枠組み） • ロジスティック回帰：logit (p) = log {p/(1-p)} に回帰モデルを想定（一般化線形モデル）参考：岩崎　学 (2010) カウントデータの統計解析．朝倉書店

コメント集－１（試験計画関連） • 試験期間中の生活変動が大きかった者を除外した，とありますが，その詳細を，試験計画書における被験者の扱いの規程と共に示してください．ここでの解析はいわゆる PP (Per Protocol) 解析ですので，ITT (Intent To Treat) 解析の結果も示し，両解析間の相違を考察すると共に，試験計画書でどの解析を主要な解析とするように規定していたのかも含めて説明してください． • 資料１には臨床試験の計画ならびに実施に関する詳細が記載されていません．資料に記載されている事柄を確認するためにも，試験計画および試験結果のデータを提出されたい．

コメント集－２（統計解析の詳細） • 実験結果は図示されていますが，せっかくデータ解析をしているのですから，図で示すだけでなく統計数字で示される部分は示していただきたい．回答文には，「直線の傾きも変化しました」とか「直線の傾きの変化が確認されました」といった記述がありますが，これらに対する数値的な裏付け，たとえば検定結果とか，求めたパラメータ値の標準誤差の表示などがあってしかるべきであると思います． • 論文には，統計的な検定結果が p < 0.05 あるいは n. s. のような形で記載されています．しかし，具体的にどういう検定を行なったのかの記載がありません．検定法についての詳細を示してください．

コメント集－３（統計解析の詳細） • 統計的有意差が見られているパラメータも散見されますが，効果はそれほど大きくないという印象です．多重性の調整を行なうと結果はどうなるのでしょう． • 試験はクロスオーバー法によって行なわれていて，△△△に関しては試験飲料群において統計的有意性が認められている点はそれなりに評価できますが，クロスオーバーによる試験結果の詳細が不明です．確認のため，キャリーオーバーや時期効果の有無など，統計解析の詳細が知りたいと考えます．

コメント集－４（効果の評価） • 結論から言えば，試験結果は必ずしもクリアカットなものとは言い難い．12週の試験において4週と8週でのみ統計的有意差もしくは有意傾向があったというのでは，何のための12週の試験であったのかと言いたくなります．また，有意差の見られた測定項目における効果の大きさが臨床上意味のある効果であるかどうかについては判断の根拠を持ち合わせないので，専門の先生方のご判断に委ねます． • 実施された実験では，当該食品を摂取した結果，摂取前と比較して○○○が統計的に有意に下降したとのことでした．しかしこの実験ではプラセボ群が設定されていないため，プラセボ効果がどの程度であったのかが判然とせず，したがって当該食品の効果の有無および程度が評価できません．

コメント集－５（同等性） • 統計の立場からは「統計的有意差がなければ同等」という［消極的な］ロジックは通常受け入れられなくて，「非劣性試験」としては，合理的な非劣性限界を設定した上で，それを下回らないことを示すという［積極的な］試験結果をもって同等（非劣性）と判断します． • 相応の被験者数を用意した上で，点推定値として既存値を上回っていれば問題はないと思いますが，点推定値で既存値を下回った場合には上述のような何らかの理由付けが必要となります（でないと徐々に値が下がる危険性があります）． • 「同等」と判断した根拠となる論文を見せていただければ，その結果の妥当性が評価できます．

コメント集－６（再試験） • 本来であれば，文献調査や動物実験，そしてヒトを対象とした試験による用量設定を経て，プラセボ対照の比較試験を実施するのが筋であることは疑いありません．本申請は，用量設定があいまいなまま比較試験を実施していたわけで，今回追加的に用量設定試験を行っています． • 摂取試験結果を見るに，△△の推移に関して試験食が対照食に比べその上昇を有意に抑制しているという客観的な証拠は得られていないと考えます．むしろAUCにおいては対照食のほうがわずかであるが小さいように見受けられます．部分集団解析では若干の統計的有意性及び有意傾向を観察していますが，証拠不足の感は否めません．対照食を適切に選択し，統計的有意性を示すことが期待されるだけの被験者数及び試験手順をもって再度試験をする必要があると考えます．

特定保健用食品のヒト試験における統計解析方法の考え方と注意点

特定保健用食品のヒト試験における統計解析方法の考え方と注意点

Presentation Transcript