ANOVA(分散分析)

ANOVA タブでは、カテゴリ変数で分けたグループ間で応答変数の平均に差があるかを分析します。一元配置と二元配置に対応しています。

基本的な使い方

タブを開く

メニューバーから Analysis > ANOVA... を選択します。

分析の実行

設定パネルで以下を順に設定します。

  1. Dataset から分析対象のデータセットを選択
  2. Analysis Type で One-Way または Two-Way を選択
  3. Factor A にカテゴリ変数を選択
  4. Response Variable に数値変数を選択
  5. Run Analysis をクリック

データ形式

データはロング形式で、1行が1つの観測に対応する必要があります。各行に因子の値と応答変数の値が含まれます。ワイド形式のデータは Reshape で変換できます。

一元配置 ANOVA

1つのカテゴリ変数(因子)でグループを分け、グループ間で応答変数の平均に差があるかを分析します。因子が1つの場合に使用します。

統計モデル

yij=μ+αi+εijy_{ij} = \mu + \alpha_i + \varepsilon_{ij}

yijy_{ij} は群 iijj 番目の観測値、μ\mu は全体平均、αi\alpha_i は群 ii の効果、εij\varepsilon_{ij} は誤差項です。

帰無仮説

H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \cdots = \mu_k

全ての群の母平均が等しいことを検定します。kk は群の数です。

変数の選択

Factor A: グループを分けるカテゴリ変数を選択します。測定尺度が nominal または ordinal の列が候補になります。

Response Variable: 分析対象の数値変数を選択します。測定尺度が interval または ratio の列が候補になります。

使用例

Iris サンプルデータで、3種の花 setosa, versicolor, virginica の間で sepal_length に差があるかを分析する場合:

  1. Dataset: Iris
  2. Analysis Type: One-Way
  3. Factor A: species
  4. Response Variable: sepal_length
  5. Run Analysis をクリック

一元配置 ANOVA の設定画面。Iris データセットで species x sepal_length を設定した例

Confidence Level

ANOVA テーブルの F 検定と Tukey HSD 事後検定の信頼水準を設定します。90%、95%(デフォルト)、99% から選択します。有意水準 α は 1 − 信頼水準で決まります(95% なら α = 0.05)。Tukey HSD の信頼区間の幅は信頼水準に連動します。

二元配置 ANOVA

2つのカテゴリ変数(因子)の効果と、その交互作用を分析します。因子が2つの場合に使用します。

統計モデル

交互作用ありの場合:

yijk=μ+αi+βj+(αβ)ij+εijky_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk}

αi\alpha_i は因子 A の効果、βj\beta_j は因子 B の効果、(αβ)ij(\alpha\beta)_{ij} は交互作用です。

追加の設定

Factor B: 2つ目のカテゴリ変数を選択します。Factor A とは異なる変数を選びます。

Include interaction term (A x B): 交互作用項をモデルに含めるかを指定します。デフォルトはオンです。2つの因子の効果が互いに独立でない可能性がある場合はオンにします。理論的に交互作用がないことが明確な場合はオフにすると、残差自由度が増え、誤差分散をより精度よく推定できます。

Sum of Squares Type: 平方和の計算方法を選択します。

平方和のタイプ

Type I は因子をモデルに投入した順序に基づいて平方和を計算します。各因子の寄与はそれ以前にモデルに入っている因子に依存します。MIDAS では Factor A、Factor B、交互作用項の順に投入します。Factor A の SS は他の因子を考慮せず計算され、Factor B の SS は Factor A の効果を除いた後の寄与です。Factor A と B の割り当てを入れ替えると結果が変わります。

Type III は各因子を最後に投入した場合の平方和を計算します。他の全因子で調整された各因子の寄与を評価します。

均衡データ(全てのセルのサンプルサイズが等しいデータ)では Type I と Type III は同じ結果になります。不均衡データでは Type III が一般的に使用されます。因子の投入順序に結果が依存しないためです。

交互作用項を含む場合の Type III の解釈

MIDAS は treatment coding を使用します。Treatment coding は因子の1つの水準を参照カテゴリ(基準水準)とし、他の水準の効果を参照カテゴリとの差として表現するコーディング方式です。参照カテゴリはアルファベット順で最初の水準です。交互作用項を含む場合、Type III の主効果の検定は「もう一方の因子が参照カテゴリの水準にあるとき」の効果を検定します。たとえば Factor A の水準が A, B, C、Factor B の水準が X, Y の場合、参照カテゴリは A と X になり、Type III の Factor A の主効果は「Factor B が X のとき」の Factor A の効果を検定します。均衡データでは全水準にわたる平均的な効果の検定と一致しますが、不均衡データでは一致しない場合があります。

結果の読み方

観測数

結果の先頭に分析に使用した観測数が表示されます。欠損値により除外された行がある場合はその数も表示されます。

Group Statistics

群ごとの記述統計量をまとめたテーブルです。

説明
Group群の名前
N観測数
Mean平均値
SD標準偏差(不偏分散の平方根、分母 n − 1)
CI Lower / CI Upper群平均の信頼区間。信頼水準は Confidence Level の設定に連動します
Min最小値
Max最大値

ANOVA Table

分散分析の結果をまとめたテーブルです。応答変数の全分散を、各因子の寄与と残差に分解します。

説明
Source変動の要因
SS平方和。各要因に帰属する変動の大きさ
df自由度
MS平均平方。SS を df で割った値
FF 統計量。各要因の MS を残差の MS で割った値
Pr(>F)p 値。帰無仮説が正しいと仮定した場合に、観測された F 統計量以上に極端な値が得られる確率
Partial η²偏イータ二乗。SS_effect / (SS_effect + SS_residual) で計算される効果量の指標。その要因が説明する分散の割合を、要因の変動と残差の変動の合計に対する比率として表します
Partial ω²偏オメガ二乗。自由度で補正した効果量の推定量。Partial η² よりも母集団の効果量に対するバイアスが小さくなります。推定値が負になる場合は 0 と表示されます

ANOVA テーブル。Iris データセットで species の効果を分析した結果

Tukey HSD 事後検定

ANOVA の F 検定は「少なくとも1つの群の平均が他と異なる」かどうかを検定しますが、どの群間にどれだけの差があるかは示しません。Tukey HSD 事後検定は、全ての群のペアについて平均差とその同時信頼区間を推定し、各ペアの差の大きさと推定精度を評価します。

一元配置 ANOVA では、Tukey HSD が F 検定の結果に関係なく自動的に計算されます。Tukey-Kramer 法を使用しており、群のサイズが異なる場合にも対応します。

Tukey HSD は全ペアの平均差に対する同時信頼区間を構成します。ファミリーワイズエラー率を制御しているため、個別に t 検定を繰り返す場合と比べ、多重比較による偽陽性の増加を抑えます。

説明
Comparison比較する2群の組み合わせ
Diff平均差。Group 1 の平均 − Group 2 の平均
SE平均差の標準誤差
qStudentized range 統計量
p-valueStudentized range 分布に基づく p 値
CI Lower / CI Upper平均差の同時信頼区間。全てのペアの信頼区間が同時に真の値を含む確率が信頼水準以上になるよう調整された区間

テーブルの下に臨界値 qcriticalq_{\text{critical}}、MSE、残差の自由度 df が表示されます。

Tukey HSD 事後検定の結果。Iris データセットの3種間の全ペア比較

前提条件

ANOVA は以下を前提としています。結果を解釈する際はこれらが妥当かを確認してください。

  • 独立性: 各観測が互いに独立であること
  • 正規性: 各群の応答変数が正規分布に従うこと。サンプルサイズが大きい場合は中心極限定理により、F 検定の Type I error rate が名目水準から大きく乖離しにくくなる
  • 等分散性: 各群の分散が等しいこと

Assumption Diagnostics

ANOVA テーブルの下に残差の Q-Q プロットが表示されます。Q-Q プロットは残差の分布を理論的な正規分布と比較したもので、点が対角線に近いほど正規性の仮定が妥当であることを示します。裾の重さや歪みの方向も視覚的に読み取れます。

等分散性は Group Statistics テーブルの各群の SD を比較して確認できます。群間で SD が大きく異なる場合は注意が必要です。

二元配置 ANOVA では、選択したモデルの fitted values から残差を計算します。交互作用項を含む場合、モデルはセルごとに平均を推定するため、残差はセル平均からの偏差と一致します。交互作用項を含まない場合、主効果のみのモデルは異なる fitted values を生成するため、残差はその予測値からの偏差になります。モデルの選択は Q-Q プロットに影響します。

エラーメッセージ

二元配置 ANOVA で因子の水準の組み合わせにデータがないセルがある場合、交互作用項を含むモデルは推定できません。この場合は "The design matrix is rank deficient" というエラーが表示されます。交互作用項をオフにするか、データに空のセルがないか確認してください。

欠損値の処理

欠損値を含む行は自動的に除外されます。除外された行数は結果パネルに表示されます。二元配置では、いずれかの因子または応答変数に欠損値を含む行が除外されます。

  • Linear Regression -- 回帰分析の ANOVA テーブルとは異なり、このタブでは因子がカテゴリ変数です