仮説検定の考え方

Two-Sample Test / Paired Test タブで使われている統計理論の背景です。操作方法は Two-Sample Test / Paired Test のページを参照してください。

帰無仮説と対立仮説

仮説検定は、効果が存在しないという仮説を $H_0$ として設定し、データがそれと矛盾するかどうかを判断する手続きです。

帰無仮説 $H_0$ : 棄却の対象として設定する「効果なし」の仮説。たとえば「2群の母平均は等しい」とする
対立仮説 $H_1$ : $H_0$ が棄却されたときに採択する仮説。たとえば「2群の母平均は等しくない」とする

データが $H_0$ のもとで非常に起こりにくい場合に $H_0$ を棄却し、 $H_1$ を採択します。 $H_0$ を棄却できなかった場合は「 $H_0$ が正しい」ではなく「 $H_0$ を棄却する根拠がない」という結論になります。

p 値

p 値は「 $H_0$ および検定が前提とするモデルの仮定（分布の形状、独立性など）がすべて正しいとき、観測されたデータと同等かそれ以上に極端な結果が得られる確率」です。

「極端さ」はデータから計算される1つの数値（検定統計量）で測ります。検定統計量は、データが $H_0$ からどれだけ離れているかを要約したもので、検定の種類ごとに定義されます（たとえば Welch の t 検定では t 統計量、Mann-Whitney U 検定では U 統計量）。 $H_0$ のもとでの検定統計量の分布が分かっているため、観測された検定統計量がその分布のどこに位置するかから p 値を計算できます。

p 値が小さいほど、観測結果は $H_0$ のもとで起こりにくいことを意味します。事前に有意水準 $\alpha$ （通常 0.05）を設定し、 $p < \alpha$ なら $H_0$ を棄却します。

p 値が表さないもの:

$H_0$ が正しい確率ではない（p 値はデータの確率であり、仮説の確率ではない）
効果の大きさではない（サンプルサイズが大きければ些細な差でも小さな p 値が得られる）
結果の再現性ではない

第一種の過誤と第二種の過誤

	$H_0$ が実際に正しい	$H_0$ が実際に誤り
$H_0$ を棄却	第一種の過誤（偽陽性）	正しい判断
$H_0$ を棄却しない	正しい判断	第二種の過誤（偽陰性）

第一種の過誤（Type I error）: 差がないのに「差がある」と結論する。確率は有意水準 $\alpha$ で制御される
第二種の過誤（Type II error）: 差があるのに検出できない。確率を $\beta$ とすると、 $1 - \beta$ が検出力（power）

有意水準を厳しくする（ $\alpha$ を小さくする）と第一種の過誤は減りますが、第二種の過誤が増えます。

統計的有意性と実質的な意味

p 値が小さいことは差の大きさを意味しません。サンプルサイズが十分に大きければ、実質的に無視できるほど小さな差でも統計的に有意になります。逆にサンプルサイズが小さいと、実質的に意味のある差があっても検出できないことがあります。

p 値は「 $H_0$ を棄却してよいか」という判断には使えますが、「差がどれくらい大きいか」「その差は実務上重要か」という問いには答えません。これらの問いに答えるには、効果の大きさとその推定精度を直接見る必要があります。

信頼区間による解釈

多くの分野では、推定値とその信頼区間が効果の大きさと精度を伝える最も直接的な方法です。

回帰分析では係数 $\hat\beta$ が効果の大きさそのものです。「 $X$ が1単位増えると $Y$ が $\hat\beta$ だけ変化する」という解釈に、信頼区間がその推定の精度を添えます。信頼区間が狭ければ推定の確からしさが高く、広ければデータから得られる情報が限られていることを示します。

t 検定でも、平均差の信頼区間は「差がどれくらいあるか」を示すため、p 値よりも情報量が多いです。信頼区間が0を含まなければ $H_0$ の棄却と同じ結論になりますが、区間の幅から差の大きさの範囲も読み取れます。

標準化効果量（Cohen's d）

心理学や教育学では、異なるスケールの変数間で効果の大きさを比較するため、標準化効果量が広く使われています。t 検定では Cohen's d（平均差をプールされた標準偏差で割ったもの）が代表的です。Cohen (1988) は small (0.2), medium (0.5), large (0.8) という目安を提案しましたが、これは他に基準がないときの暫定的な指標であり、分野や文脈によって適切な値は異なります。

回帰分析ではオッズ比やハザード比など、モデル固有の係数が効果の大きさを直接表すため、別途標準化効果量を計算する必要は通常ありません。

サンプルサイズと検出力

検出力（power）は「実際に差があるとき、それを正しく検出できる確率」（ $1 - \beta$ ）です。検出力は以下の要因で決まります:

サンプルサイズ: 大きいほど検出力が高い
効果の大きさ: 差が大きいほど検出力が高い
有意水準 $\alpha$ : 大きいほど検出力が高い（ただし偽陽性も増える）
データのばらつき: 小さいほど検出力が高い

Welch の t 検定

MIDAS の独立2群 t 検定は Welch (1947) の t 検定です。2群の分散が等しいことを仮定しません。

問題設定

2つの独立した群から得られた標本に基づいて、母平均に差があるかどうかを判断します。

$H_0$ : $\mu_1 = \mu_2$ （2群の母平均は等しい）とする
$H_1$ : $\mu_1 \neq \mu_2$ （両側検定の場合）とする

検定統計量

t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}

$\bar{X}_i$ , $s_i^2$ , $n_i$ はそれぞれ群 $i$ の標本平均、不偏分散、サンプルサイズです。分母は2群の平均差の標準誤差で、各群の分散を独立に扱います。

自由度は Welch-Satterthwaite 近似で求めます:

\nu = \frac{\left(\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}\right)^2}{\dfrac{(s_1^2/n_1)^2}{n_1 - 1} + \dfrac{(s_2^2/n_2)^2}{n_2 - 1}}

$\nu$ は一般に非整数になります。 $t$ 統計量が自由度 $\nu$ の $t$ 分布のもとで十分に極端であれば $H_0$ を棄却します。

正規性の仮定と診断

t 検定は標本平均が正規分布に従うことに依拠しています。母集団が正規分布に従えばこの条件は満たされます。母集団が正規分布でない場合でも、中心極限定理により、サンプルサイズが十分に大きければ標本平均の分布は正規分布に近づきます。そのため、大標本では母集団の正規性からの逸脱に対してロバストです。

対応のある t 検定では、各群のデータではなく差 $d_i = x_{1i} - x_{2i}$ に対する1標本 t 検定を行うため、正規性の仮定は差の母集団分布に対して適用されます。各群が正規分布でなくても差が正規分布に近ければ検定は妥当です。MIDAS の診断パネルでは各群の診断に加えて差の Q-Q プロット、ヒストグラム、Shapiro-Wilk 検定を表示します。

MIDAS では t 検定の実行後に診断情報（Q-Q プロット、Shapiro & Wilk (1965) の正規性検定）を表示します。これらは検定手法を切り替えるためのゲートではなく、結果をどの程度信頼できるかの判断材料です。

大標本で正規性が疑わしい場合: 中心極限定理により標本平均の正規近似は十分に機能するため、t 検定の結果は概ね信頼できます。Shapiro-Wilk 検定は大標本では微小な偏差でも有意になるため、有意であっても即座に問題とは限りません
小標本で正規性が疑わしい場合: t 検定の結果の信頼性が下がります。Q-Q プロットで裾の重さや歪みの程度を確認し、結果の解釈に注意を添えてください

正規性検定の結果を見てからノンパラメトリック検定に切り替える手順は、事前検定（pre-testing）と呼ばれる多重検定の一形態であり、全体の第一種の過誤率が名目水準から乖離します。分析対象の性質から正規性が成り立ちそうにないことが事前に分かっている場合（たとえば所得データのように右に裾が長い分布）は、データを見る前にノンパラメトリック検定を選択してください。MIDAS の Two-Sample Test タブでは Mann-Whitney U 検定、Paired Test タブでは Wilcoxon signed-rank 検定を選択できます。

順位検定（ノンパラメトリック検定）

順位検定はデータの値そのものではなく、値の順位に基づいて検定を行う手法です。母集団の分布に特定の形状（正規分布など）を仮定しないため、ノンパラメトリック検定と呼ばれます。

順位の仕組み

データの値を小さい順に並べ、各観測値にその位置を示す順位を割り当てます。同じ値が複数ある場合（タイ）は、該当する順位の平均値を割り当てます。たとえば3番目と4番目が同じ値なら、両方に順位 3.5 を割り当てます。

順位に変換することで、外れ値の影響が軽減されます。元の値がどれだけ極端でも、順位では最大値と最小値の差は一定です。

Mann-Whitney U 検定

Mann & Whitney (1947) の U 検定は、独立した2群の分布を順位に基づいて比較します。

$H_0$ : 2群の分布が同一である
$H_1$ : 2群の分布が同一でない（両側検定の場合）

2群のデータをまとめて順位を付け、各群の順位和を計算します。U 統計量は、一方の群の各観測値がもう一方の群の各観測値よりも大きい回数として定義されます:

U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}

$R_1$ は群1の順位和、 $n_1$ は群1のサンプルサイズです。 $H_0$ のもとでは $U$ の期待値は $n_1 n_2 / 2$ です。

Wilcoxon signed-rank 検定

Wilcoxon (1945) の符号順位検定は、対応のある2群の差を順位に基づいて検定します。

$H_0$ : 差の分布がゼロに対して対称である
$H_1$ : 差の分布がゼロに対して対称でない（両側検定の場合）

各ペアの差 $d_i$ を計算し、差がゼロのペアを除外します。残った差の絶対値に順位を付け、正の差に対応する順位和 $W^+$ と負の差に対応する順位和 $W^-$ を計算します。 $H_0$ のもとでは $W^+$ と $W^-$ は同程度の値になります。

正規近似

MIDAS では検定統計量の正規近似で p 値を計算します。検定統計量を $H_0$ のもとでの期待値と標準偏差で標準化し、z スコアを計算します:

z = \frac{U - E(U)}{\sqrt{\text{Var}(U)}}

タイが存在する場合は分散の計算にタイ補正を適用します。MIDAS は連続性補正（分子から 0.5 を減じる）を常に適用します。

正規近似は各群のサンプルサイズが十分大きい場合に精度が高くなります。各群10未満の小標本では近似精度が低下するため、p 値の解釈には注意が必要です。MIDAS は正確分布による p 値計算には対応していません。

順位双列相関 r（効果量）

ノンパラメトリック検定では Cohen's d に代わる効果量として rank-biserial r を報告します。値の範囲は −1 から +1 で、0 は効果なしを意味します。

Mann-Whitney U 検定では:

r = \frac{2U}{n_1 n_2} - 1

Wilcoxon signed-rank 検定では:

r = \frac{W^+ - W^-}{W^+ + W^-}

$|r|$ が1に近いほど2群の分離が大きく、0に近いほど2群の分布が重なっていることを示します。Cohen's d と同様に、 $|r|$ の絶対的な基準は分野や文脈によって異なります。

パラメトリック検定とノンパラメトリック検定の選択

検定手法はデータを見る前に、分析対象の性質に基づいて選択すべきです。正規性検定の結果を見てから手法を切り替える手順は事前検定（pre-testing）であり、多重検定の問題が生じます。

選択の指針:

順序尺度のデータ: 順位検定が適切です。順序尺度では値の間隔に意味がないため、平均や標準偏差に基づく t 検定は適しません
分布が正規分布から大きく逸脱することが事前に分かっている場合: たとえば所得データ、反応時間データなど、右に裾が長い分布を持つことが知られているデータには順位検定が適切です
間隔尺度または比率尺度で、正規分布に近いと想定できる場合: t 検定の方が検出力が高くなります。母集団が正規分布に従うとき、t 検定は順位検定より少ないサンプルサイズで同等の検出力を達成します
サンプルサイズが十分に大きい場合: 中心極限定理により t 検定は母集団の分布形状に対してロバストです。大標本では t 検定と順位検定の結果は概ね一致します

多重検定

同じデータに対して複数の検定を繰り返すと、少なくとも1つの検定で帰無仮説を誤って棄却する確率（族エラー率、familywise error rate）が上昇します。個々の検定の有意水準が $\alpha = 0.05$ であっても、独立な $m$ 回の検定を行うと、1つ以上の偽陽性が生じる確率は $1 - (1 - \alpha)^m$ に達します。 $m = 5$ で約23%、 $m = 10$ で約40%です。

多重検定が問題になる典型的な場面:

複数の群変数で繰り返し Log-rank 検定や t 検定を実行する
複数のアウトカムに対して同じ検定を繰り返す
正規性検定の結果を見てから検定手法を切り替える（事前検定）

データを探索して見つけたパターンは仮説の生成であり、検定ではありません。探索で得た仮説を検定するには、独立に収集した新しいデータを使います。同じデータで仮説を生成し、そのまま検定すると、偶然のパターンを「発見」する危険があります。

新しいデータを収集できない場合は、結果を探索的分析として報告します。族エラー率の補正（Bonferroni 補正など）は探索的な知見の蓋然性を補強する材料にはなりますが、確認的検定の代替にはなりません。

参考文献

Welch, B. L. (1947). The generalization of "Student's" problem when several different population variances are involved. Biometrika, 34(1-2), 28-35.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates.
Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3-4), 591-611.
Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 18(1), 50-60.
Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics Bulletin, 1(6), 80-83.