カイ二乗独立性検定

Chi-Square Test タブでは、2つのカテゴリ変数が独立かどうかを Pearson のカイ二乗独立性検定で分析します。

基本的な使い方

タブを開く

メニューバーから Analysis > Chi-Square Test... を選択します。

検定の実行

設定パネルで以下を順に設定します。

  1. Dataset から分析対象のデータセットを選択
  2. Row variable に行方向のカテゴリ変数を選択
  3. Column variable に列方向のカテゴリ変数を選択
  4. Run をクリック

Row variable と Column variable にはそれぞれ2つ以上のカテゴリを持つ変数が必要です。測定尺度が nominal または ordinal の列が候補になります。

検定の仮説

  • H₀(帰無仮説): 行変数と列変数は独立である
  • H₁(対立仮説): 行変数と列変数は独立でない

結果の読み方

結果パネルには仮説、有意水準 α=0.05\alpha = 0.05 での結論、検定統計量が表示されます。

統計量説明
χ2\chi^2Pearson のカイ二乗統計量。各セルの観測度数と期待度数のずれを集約した値
df自由度 (r1)(c1)(r-1)(c-1)rr は行カテゴリ数、cc は列カテゴリ数
pp 値。帰無仮説のもとで、観測されたカイ二乗統計量以上に極端な値が得られる確率
Cramer's V効果量。V=χ2/(N(min(r,c)1))V = \sqrt{\chi^2 / (N \cdot (\min(r, c) - 1))} で計算され、0 から 1 の範囲をとります。0 は完全な独立、1 は完全な連関を意味します。VV の値の解釈はテーブルの次元 min(r,c)1\min(r, c) - 1 に依存するため、異なるサイズのテーブル間で VV を直接比較する際は注意が必要です

分割表

結果パネルの下に分割表が表示されます。各セルには観測度数と期待度数が並んで表示されます。期待度数は帰無仮説(独立)のもとで理論的に得られる度数で、(行合計×列合計)/総計(行合計 \times 列合計) / 総計 で計算されます。

欠損値を含む行は分析から除外されます。除外された行数は分割表の上に表示されます。

調整済み標準化残差

Adjusted standardized residuals チェックボックスを有効にすると、各セルの調整済み標準化残差 dijd_{ij} が表示されます。

dij=OijEijEij(1ni/n)(1nj/n)d_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - n_{i \cdot}/n)(1 - n_{\cdot j}/n)}}

OijO_{ij} は観測度数、EijE_{ij} は期待度数、nin_{i \cdot} は行合計、njn_{\cdot j} は列合計、nn は総計です。

残差の絶対値が大きいセルは、独立からの逸脱が大きいセルです。正の残差は期待より多い観測、負の残差は期待より少ない観測を意味します。

残差を有効にすると、セルがダイバージングカラーで色付けされます。Bonferroni 補正による臨界値を超える残差は太字で表示されます。Bonferroni 補正は有意水準 α\alpha を自由度 (r1)(c1)(r-1)(c-1) で割って各セルの判定基準を調整します。

カイ二乗近似の限界

Pearson のカイ二乗検定は、検定統計量がカイ二乗分布に漸近的に従うことを利用しています。サンプルサイズが小さい場合や期待度数が低いセルが多い場合、この近似の精度が下がります。分割表に表示される期待度数 (E)(E) を確認し、近似が適切かどうかを判断してください。

2x2 の分割表では Yates の連続性補正や Fisher の正確検定が代替手法として知られていますが、現在の MIDAS では無補正の Pearson カイ二乗統計量のみを計算します。

他の検定手法

2群の平均の比較には Two-Sample Test / Paired Test を、3群以上の平均の比較には ANOVA を使用します。カテゴリ変数の度数の集計には Crosstab を使用します。

参考文献

  • Pearson, K. (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine, 50(302), 157-175.
  • Agresti, A. (2007). An Introduction to Categorical Data Analysis (2nd ed., pp. 38-40). Wiley.