カイ二乗独立性検定

Chi-Square Test タブでは、2つのカテゴリ変数が独立かどうかを Pearson のカイ二乗独立性検定で分析します。

基本的な使い方

メニューバーから Analysis > Chi-Square Test... を選択します。

設定パネルで以下を順に設定します。

Row variable と Column variable にはそれぞれ2つ以上のカテゴリを持つ変数が必要です。測定尺度が nominal または ordinal の列が候補になります。

結果パネルには仮説、有意水準 $\alpha = 0.05$ での結論、検定統計量が表示されます。

統計量	説明
$\chi^2$	Pearson のカイ二乗統計量。各セルの観測度数と期待度数のずれを集約した値
df	自由度 $(r-1)(c-1)$ 。 $r$ は行カテゴリ数、 $c$ は列カテゴリ数
p	p 値。帰無仮説のもとで、観測されたカイ二乗統計量以上に極端な値が得られる確率
Cramer's V	効果量。 $V = \sqrt{\chi^2 / (N \cdot (\min(r, c) - 1))}$ で計算され、0 から 1 の範囲をとります。0 は完全な独立、1 は完全な連関を意味します。 $V$ の値の解釈はテーブルの次元 $\min(r, c) - 1$ に依存するため、異なるサイズのテーブル間で $V$ を直接比較する際は注意が必要です

結果パネルの下に分割表が表示されます。各セルには観測度数と期待度数が並んで表示されます。期待度数は帰無仮説（独立）のもとで理論的に得られる度数で、 $(行合計 \times 列合計) / 総計$ で計算されます。

欠損値を含む行は分析から除外されます。除外された行数は分割表の上に表示されます。

Adjusted standardized residuals チェックボックスを有効にすると、各セルの調整済み標準化残差 $d_{ij}$ が表示されます。

$d_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - n_{i \cdot}/n)(1 - n_{\cdot j}/n)}}$

$O_{ij}$ は観測度数、 $E_{ij}$ は期待度数、 $n_{i \cdot}$ は行合計、 $n_{\cdot j}$ は列合計、 $n$ は総計です。

残差の絶対値が大きいセルは、独立からの逸脱が大きいセルです。正の残差は期待より多い観測、負の残差は期待より少ない観測を意味します。

残差を有効にすると、セルがダイバージングカラーで色付けされます。Bonferroni 補正による臨界値を超える残差は太字で表示されます。Bonferroni 補正は有意水準 $\alpha$ を自由度 $(r-1)(c-1)$ で割って各セルの判定基準を調整します。

Pearson のカイ二乗検定は、検定統計量がカイ二乗分布に漸近的に従うことを利用しています。サンプルサイズが小さい場合や期待度数が低いセルが多い場合、この近似の精度が下がります。分割表に表示される期待度数 $(E)$ を確認し、近似が適切かどうかを判断してください。

2x2 の分割表では Yates の連続性補正や Fisher の正確検定が代替手法として知られていますが、現在の MIDAS では無補正の Pearson カイ二乗統計量のみを計算します。

2群の平均の比較には Two-Sample Test / Paired Test を、3群以上の平均の比較には ANOVA を使用します。カテゴリ変数の度数の集計には Crosstab を使用します。

Pearson, K. (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine, 50(302), 157-175.
Agresti, A. (2007). An Introduction to Categorical Data Analysis (2nd ed., pp. 38-40). Wiley.