ANOVA(分散分析)

ANOVA タブでは、カテゴリ変数で分けたグループ間で応答変数の平均に差があるかを分析します。一元配置と二元配置に対応しています。

基本的な使い方

タブを開く

メニューバーから Analysis > ANOVA... を選択します。

分析の実行

設定パネルで以下を順に設定します。

  1. Dataset から分析対象のデータセットを選択
  2. Analysis Type で One-Way または Two-Way を選択
  3. Factor A にカテゴリ変数を選択
  4. Response Variable に数値変数を選択
  5. Run Analysis をクリック

データ形式

データはロング形式で、1行が1つの観測に対応する必要があります。各行に因子の値と応答変数の値が含まれます。ワイド形式のデータは Reshape で変換できます。

一元配置 ANOVA

1つのカテゴリ変数(因子)でグループを分け、グループ間で応答変数の平均に差があるかを分析します。因子が1つの場合に使用します。

統計モデル

yij=μ+αi+εijy_{ij} = \mu + \alpha_i + \varepsilon_{ij}

yijy_{ij} は群 iijj 番目の観測値、μ\mu は全体平均、αi\alpha_i は群 ii の効果、εij\varepsilon_{ij} は誤差項です。

帰無仮説

H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \cdots = \mu_k

全ての群の母平均が等しいことを検定します。kk は群の数です。

変数の選択

Factor A: グループを分けるカテゴリ変数を選択します。測定尺度が nominal または ordinal の列が候補になります。

Response Variable: 分析対象の数値変数を選択します。測定尺度が interval または ratio の列が候補になります。

使用例

Iris サンプルデータで、3種の花 setosa, versicolor, virginica の間で sepal_length に差があるかを分析する場合:

  1. Dataset: Iris
  2. Analysis Type: One-Way
  3. Factor A: species
  4. Response Variable: sepal_length
  5. Run Analysis をクリック

一元配置 ANOVA の設定画面。Iris データセットで species x sepal_length を設定した例

Confidence Level

一元配置では Tukey HSD 事後検定の信頼区間の幅を設定できます。90%、95%(デフォルト)、99% から選択します。

二元配置 ANOVA

2つのカテゴリ変数(因子)の効果と、その交互作用を分析します。因子が2つの場合に使用します。

統計モデル

交互作用ありの場合:

yijk=μ+αi+βj+(αβ)ij+εijky_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk}

αi\alpha_i は因子 A の効果、βj\beta_j は因子 B の効果、(αβ)ij(\alpha\beta)_{ij} は交互作用です。

追加の設定

Factor B: 2つ目のカテゴリ変数を選択します。Factor A とは異なる変数を選びます。

Include interaction term (A x B): 交互作用項をモデルに含めるかを指定します。デフォルトはオンです。2つの因子の効果が互いに独立でない可能性がある場合はオンにします。理論的に交互作用がないことが明確な場合はオフにすると、主効果の検定力が上がります。

Sum of Squares Type: 平方和の計算方法を選択します。

平方和のタイプ

Type I は因子をモデルに投入した順序に基づいて平方和を計算します。各因子の寄与はそれ以前にモデルに入っている因子に依存します。

Type III は各因子を最後に投入した場合の平方和を計算します。他の全因子で調整された各因子の寄与を評価します。

均衡データ(全てのセルのサンプルサイズが等しいデータ)では Type I と Type III は同じ結果になります。不均衡データでは Type III が一般的に使用されます。因子の投入順序に結果が依存しないためです。

交互作用項を含む場合の Type III の解釈

交互作用項を含む場合、Type III の主効果の検定は「もう一方の因子が参照カテゴリの水準にあるとき」の効果を検定します。MIDAS は treatment coding を使用し、アルファベット順で最初の水準を参照カテゴリとします。均衡データでは全水準にわたる平均的な効果の検定と一致しますが、不均衡データでは一致しない場合があります。

結果の読み方

観測数

結果の先頭に分析に使用した観測数が表示されます。欠損値により除外された行がある場合はその数も表示されます。

Group Statistics

群ごとの記述統計量をまとめたテーブルです。

説明
Group群の名前
N観測数
Mean平均値
SD標準偏差
Min最小値
Max最大値

ANOVA Table

分散分析の結果をまとめたテーブルです。応答変数の全分散を、各因子の寄与と残差に分解します。

説明
Source変動の要因
SS平方和。各要因に帰属する変動の大きさ
df自由度
MS平均平方。SS を df で割った値
FF 統計量。各要因の MS を残差の MS で割った値
Pr(>F)p 値。帰無仮説が正しいと仮定した場合に、観測された F 統計量以上に極端な値が得られる確率

ANOVA テーブル。Iris データセットで species の効果を分析した結果

Tukey HSD 事後検定

ANOVA の F 検定は「少なくとも1つの群の平均が他と異なる」かどうかを検定しますが、どの群間に差があるかは示しません。Tukey HSD 事後検定は、全ての群のペアについて平均差を検定し、どの組み合わせに差があるかを特定します。

一元配置 ANOVA では、Tukey HSD が F 検定の結果に関係なく自動的に計算されます。F 検定の p 値が大きい場合、Tukey HSD の結果は探索的な参考情報として扱ってください。Tukey-Kramer 法を使用しており、群のサイズが異なる場合にも対応します。

Tukey HSD はファミリーワイズエラー率を制御しながら、全ペアの平均差を同時に検定します。個別に t 検定を繰り返す場合と比べ、多重比較による偽陽性の増加を抑えます。

説明
Comparison比較する2群の組み合わせ
Diff平均差。Group 1 の平均 − Group 2 の平均
SE平均差の標準誤差
qStudentized range 統計量
p-valueStudentized range 分布に基づく p 値
CI Lower / CI Upper平均差の同時信頼区間。設定した信頼水準に基づく

テーブルの下に臨界値 qcriticalq_{\text{critical}}、MSE、残差の自由度 df が表示されます。

Tukey HSD 事後検定の結果。Iris データセットの3種間の全ペア比較

前提条件

ANOVA は以下を前提としています。結果を解釈する際はこれらが妥当かを確認してください。

  • 独立性: 各観測が互いに独立であること
  • 正規性: 各群の応答変数が正規分布に従うこと。サンプルサイズが大きい場合は中心極限定理により頑健になる
  • 等分散性: 各群の分散が等しいこと

現在の実装では前提条件の診断機能を提供していません。

エラーメッセージ

二元配置 ANOVA で因子の水準の組み合わせにデータがないセルがある場合、交互作用項を含むモデルは推定できません。この場合は "The design matrix is rank deficient" というエラーが表示されます。交互作用項をオフにするか、データに空のセルがないか確認してください。

欠損値の処理

欠損値を含む行は自動的に除外されます。除外された行数は結果パネルに表示されます。二元配置では、いずれかの因子または応答変数に欠損値を含む行が除外されます。

関連ページ