ANOVA(分散分析)
ANOVA タブでは、カテゴリ変数で分けたグループ間で応答変数の平均に差があるかを分析します。一元配置と二元配置に対応しています。
基本的な使い方
タブを開く
メニューバーから Analysis > ANOVA... を選択します。
分析の実行
設定パネルで以下を順に設定します。
- Dataset から分析対象のデータセットを選択
- Analysis Type で One-Way または Two-Way を選択
- Factor A にカテゴリ変数を選択
- Response Variable に数値変数を選択
- Run Analysis をクリック
データ形式
データはロング形式で、1行が1つの観測に対応する必要があります。各行に因子の値と応答変数の値が含まれます。ワイド形式のデータは Reshape で変換できます。
一元配置 ANOVA
1つのカテゴリ変数(因子)でグループを分け、グループ間で応答変数の平均に差があるかを分析します。因子が1つの場合に使用します。
統計モデル
は群 の 番目の観測値、 は全体平均、 は群 の効果、 は誤差項です。
帰無仮説
全ての群の母平均が等しいことを検定します。 は群の数です。
変数の選択
Factor A: グループを分けるカテゴリ変数を選択します。測定尺度が nominal または ordinal の列が候補になります。
Response Variable: 分析対象の数値変数を選択します。測定尺度が interval または ratio の列が候補になります。
使用例
Iris サンプルデータで、3種の花 setosa, versicolor, virginica の間で sepal_length に差があるかを分析する場合:
- Dataset: Iris
- Analysis Type: One-Way
- Factor A:
species - Response Variable:
sepal_length - Run Analysis をクリック

Confidence Level
一元配置では Tukey HSD 事後検定の信頼区間の幅を設定できます。90%、95%(デフォルト)、99% から選択します。
二元配置 ANOVA
2つのカテゴリ変数(因子)の効果と、その交互作用を分析します。因子が2つの場合に使用します。
統計モデル
交互作用ありの場合:
は因子 A の効果、 は因子 B の効果、 は交互作用です。
追加の設定
Factor B: 2つ目のカテゴリ変数を選択します。Factor A とは異なる変数を選びます。
Include interaction term (A x B): 交互作用項をモデルに含めるかを指定します。デフォルトはオンです。2つの因子の効果が互いに独立でない可能性がある場合はオンにします。理論的に交互作用がないことが明確な場合はオフにすると、主効果の検定力が上がります。
Sum of Squares Type: 平方和の計算方法を選択します。
平方和のタイプ
Type I は因子をモデルに投入した順序に基づいて平方和を計算します。各因子の寄与はそれ以前にモデルに入っている因子に依存します。
Type III は各因子を最後に投入した場合の平方和を計算します。他の全因子で調整された各因子の寄与を評価します。
均衡データ(全てのセルのサンプルサイズが等しいデータ)では Type I と Type III は同じ結果になります。不均衡データでは Type III が一般的に使用されます。因子の投入順序に結果が依存しないためです。
交互作用項を含む場合の Type III の解釈
交互作用項を含む場合、Type III の主効果の検定は「もう一方の因子が参照カテゴリの水準にあるとき」の効果を検定します。MIDAS は treatment coding を使用し、アルファベット順で最初の水準を参照カテゴリとします。均衡データでは全水準にわたる平均的な効果の検定と一致しますが、不均衡データでは一致しない場合があります。
結果の読み方
観測数
結果の先頭に分析に使用した観測数が表示されます。欠損値により除外された行がある場合はその数も表示されます。
Group Statistics
群ごとの記述統計量をまとめたテーブルです。
| 列 | 説明 |
|---|---|
| Group | 群の名前 |
| N | 観測数 |
| Mean | 平均値 |
| SD | 標準偏差 |
| Min | 最小値 |
| Max | 最大値 |
ANOVA Table
分散分析の結果をまとめたテーブルです。応答変数の全分散を、各因子の寄与と残差に分解します。
| 列 | 説明 |
|---|---|
| Source | 変動の要因 |
| SS | 平方和。各要因に帰属する変動の大きさ |
| df | 自由度 |
| MS | 平均平方。SS を df で割った値 |
| F | F 統計量。各要因の MS を残差の MS で割った値 |
| Pr(>F) | p 値。帰無仮説が正しいと仮定した場合に、観測された F 統計量以上に極端な値が得られる確率 |

Tukey HSD 事後検定
ANOVA の F 検定は「少なくとも1つの群の平均が他と異なる」かどうかを検定しますが、どの群間に差があるかは示しません。Tukey HSD 事後検定は、全ての群のペアについて平均差を検定し、どの組み合わせに差があるかを特定します。
一元配置 ANOVA では、Tukey HSD が F 検定の結果に関係なく自動的に計算されます。F 検定の p 値が大きい場合、Tukey HSD の結果は探索的な参考情報として扱ってください。Tukey-Kramer 法を使用しており、群のサイズが異なる場合にも対応します。
Tukey HSD はファミリーワイズエラー率を制御しながら、全ペアの平均差を同時に検定します。個別に t 検定を繰り返す場合と比べ、多重比較による偽陽性の増加を抑えます。
| 列 | 説明 |
|---|---|
| Comparison | 比較する2群の組み合わせ |
| Diff | 平均差。Group 1 の平均 − Group 2 の平均 |
| SE | 平均差の標準誤差 |
| q | Studentized range 統計量 |
| p-value | Studentized range 分布に基づく p 値 |
| CI Lower / CI Upper | 平均差の同時信頼区間。設定した信頼水準に基づく |
テーブルの下に臨界値 、MSE、残差の自由度 df が表示されます。

前提条件
ANOVA は以下を前提としています。結果を解釈する際はこれらが妥当かを確認してください。
- 独立性: 各観測が互いに独立であること
- 正規性: 各群の応答変数が正規分布に従うこと。サンプルサイズが大きい場合は中心極限定理により頑健になる
- 等分散性: 各群の分散が等しいこと
現在の実装では前提条件の診断機能を提供していません。
エラーメッセージ
二元配置 ANOVA で因子の水準の組み合わせにデータがないセルがある場合、交互作用項を含むモデルは推定できません。この場合は "The design matrix is rank deficient" というエラーが表示されます。交互作用項をオフにするか、データに空のセルがないか確認してください。
欠損値の処理
欠損値を含む行は自動的に除外されます。除外された行数は結果パネルに表示されます。二元配置では、いずれかの因子または応答変数に欠損値を含む行が除外されます。
関連ページ
- Two-Sample Test / Paired Test -- 2群の比較には t 検定を使用します
- Linear Regression -- 回帰分析の ANOVA テーブルとは異なり、このタブでは因子がカテゴリ変数です