(補足)サンプルサイズが大きいことの何が問題か?

確率・統計
Sponsored

概要

先日、上の記事の中で、「サンプルサイズは小さすぎても大きすぎてもいけない」という説明をした。とはいえ、サンプルサイズが小さすぎる場合に検定がうまくいかないのは直感に沿うが、大きすぎる場合の問題点は少しわかりにくいかもしれない。それを補足するため、この記事を書いた。

本文

結論

サンプルサイズが大きすぎる場合の問題点は、

「ごくわずかにでも差異があれば、それが意味のないほど微細なものであったとしても、帰無仮説を否定してしまう」

ことである。

前提(統計検定の作法)

臨床試験など、統計検定が用いられる場面では、「2群間に差がある」こと(対立仮説)は、「2群間に差がない」こと(帰無仮説)の否定によって示される。つまり、「同じでない⇒違っている」ということである。

具体例

高血圧の新薬Aが開発され、これが有意に血圧を下げるかどうかの試験を行うことになった。何も薬を投与されなかったグループの平均収縮期血圧(上の血圧)は135.0であり、これと比較して、新薬Aを投与されたグループの平均収縮期血圧が有意に下がっているかどうかを調べたい。

ここで神の視点に立ってネタバレをしておくと、実際この新薬Aには血圧低下効果があった。これは検定の結果そう判断されたという意味ではなく、全知全能の分析から、新薬Aには血圧低下効果があるという真理を導き出した、ということである。ただし、その違いはわずかであった。新薬Aを投与することで、平均135.0あった収縮期血圧は、平均134.9になったのである。

通常、これほどわずかな差を検定で捉えることは難しいが、サンプルサイズを相当大きくすることで理論上は検出が可能になる。その結果、帰無仮説を否定し、「新薬Aには血圧低下効果がある」と結論付けることができる。

以上の結論は完全に正しい。実際、神の視点の全知全能の分析結果とも一致している。ただ、この「差」は検定で「有意」となったが、実用的に「意味のある」ものではない。確実に血圧を0.1下げるという理由で新薬Aを保険適応にしていては、医療経済がもたないだろう。

解説

上でみた具体例では、理論と実践の間で乖離が生じていた。すなわち、統計検定においては「差があるか否か」のみに注目しているが、実際の現場では、「ある一定以上差があるか」が(暗黙的に)求められていた。微細な差異であっても巨大なサンプルサイズがあれば検出できるが、それは実用的には検出しても意味がなかったのである。

そのため、実際の臨床研究では、先に「想定される(存在してほしい)差の大きさ \(\delta\) 」を設定し、それと検出力からサンプルサイズを決定する。ここで決められたサンプルサイズは \(\delta\) を検出できるほどには大きいが、\(\delta\) より小さい差を検出してしまうほど大きくならないように設計されているのである。

Comments