---
title: 欠損データのメカニズム
description: 欠損データの発生メカニズム（MCAR・MAR・MNAR）の定義と、リストワイズ除去が前提とする仮定について解説します。
priority: 0.5
---

# 欠損データのメカニズム {#missing-data-mechanisms}

MIDAS の多くの分析タブ（Linear Regression、GLM、GLMM、ANOVA、DoE、Survival Analysis、Random Forest、PCA）は、欠損値を含む行を自動的に除外して分析を実行します。この方式はリストワイズ除去（listwise deletion）または完全ケース分析（complete-case analysis）と呼ばれます。リストワイズ除去が妥当な推定を与えるかどうかは、データが欠損する仕組み（欠損メカニズム）に依存します。

このページでは Rubin（[1976](#ref-rubin-1976)）による欠損メカニズムの分類と、リストワイズ除去との関係を説明します。各分析タブの操作方法は個別のページを参照してください。

## 欠損メカニズムの分類 {#classification}

欠損メカニズムは、欠損が生じる確率が何に依存するかによって 3 つに分類されます。

表記を定めます。$Y = (Y_\text{obs}, Y_\text{mis})$ を完全データ（観測された部分と欠損した部分の組）、$M$ を欠損指示変数（$M_i = 1$ なら $Y_i$ は欠損）とします。欠損メカニズムは $M$ の条件付き分布 $P(M \mid Y_\text{obs}, Y_\text{mis})$ で特徴づけられます。

### MCAR（Missing Completely at Random） {#mcar}

$$
P(M \mid Y_\text{obs}, Y_\text{mis}) = P(M)
$$

欠損が生じる確率が、観測値にも欠損値にも依存しません。欠損パターンはデータの値と無関係です。

**例**: 測定機器がデータの値とは無関係にランダムに故障し、一部の測定値が記録されない場合です。

MCAR のもとでは、完全ケース（欠損のない行）はデータ全体からのランダムサンプルとみなせます。MCAR は MAR の特殊ケースです（$P(M) = P(M \mid Y_\text{obs})$ が常に成立するため）。

### MAR（Missing at Random） {#mar}

$$
P(M \mid Y_\text{obs}, Y_\text{mis}) = P(M \mid Y_\text{obs})
$$

欠損が生じる確率が観測されたデータに依存しますが、欠損値そのものには依存しません。「ランダム」という名称ですが、欠損は無条件にはランダムではなく、観測データで条件づけたときにランダムになるという意味です。

**例**: ある調査で、年齢の高い回答者ほど収入の質問を空欄にする傾向があるとします。年齢は全員について観測されており、同じ年齢層の中では欠損の有無が収入の値に依存しないなら、これは MAR です。

### MNAR（Missing Not at Random） {#mnar}

$$
P(M \mid Y_\text{obs}, Y_\text{mis}) \neq P(M \mid Y_\text{obs})
$$

観測データで条件づけても、欠損が生じる確率が欠損値そのものに依存します。

**例**: 臨床試験で、症状が重い患者ほど脱落する場合、症状の重さ（測定されるはずだった結果変数）が欠損の原因となっており、MNAR です。この場合、残った患者は軽症例に偏るため、完全ケース分析では症状の平均重症度を過小推定します。

## リストワイズ除去と MCAR {#listwise-deletion-and-mcar}

リストワイズ除去は、分析に使用する変数のいずれかに欠損がある行をすべて除外し、完全ケースのみで推定を行います。

**MCAR の場合**: 完全ケースはデータ全体のランダムサブサンプルなので、推定量は不偏であり、標準誤差も正しく計算されます。ただし、データの一部を捨てるため、全データを使った推定より効率が下がります（標準誤差が大きくなります）。

**MAR の場合**: 一般に、リストワイズ除去は標本の代表性を損ないます。ただし、回帰モデルにおいて説明変数が完全に観測されており、応答変数の欠損が説明変数の値にのみ依存する場合、完全ケースは説明変数で条件づけたランダムサブサンプルになるため、回帰係数の推定は不偏になります。この特殊ケースを除き、MAR のもとではリストワイズ除去は効率の損失に加え、推定に偏りが生じ得ます。

**MNAR の場合**: 完全ケースはデータ全体の代表ではなくなるため、推定に偏りが生じます。偏りの方向と大きさは欠損メカニズムの具体的な構造に依存します。

MIDAS は現在リストワイズ除去のみに対応しており、多重代入法（MI）や完全情報最尤推定（FIML）などの代替手法は提供していません。MAR や MNAR が疑われる場合は、リストワイズ除去の結果を解釈する際にその限界を考慮してください。

MIDAS でリストワイズ除去を行うタブ:

- [Linear Regression](linear-regression#automatic-exclusion-of-missing-and-invalid-values)
- [GLM](glm#automatic-exclusion-of-missing-and-invalid-values)
- [GLMM](glmm#automatic-exclusion-of-missing-values)
- [ANOVA](anova#missing-values)
- [DoE](doe#missing-values)
- [Survival Analysis](survival-analysis#notes)（Kaplan-Meier）
- [Survival Analysis](survival-analysis#notes-1)（Cox 回帰）
- [Random Forest](random-forest#missing-values)
- [PCA](pca#automatic-exclusion)

ARIMA タブも、欠損値・非数値・無限大の観測を系列から自動的に除外してからモデルを当てはめます。ただし時系列では、除外後に残った観測が連続した系列として扱われるため、系列の途中に欠損があると、実際には離れた時点の観測が隣接しているものとして扱われます。この影響は上記のリストワイズ除去とは性質が異なります。

## MCAR の検証可能性 {#testability}

欠損メカニズムはデータだけから確定できません。MAR と MNAR の区別は $Y_\text{mis}$ への依存の有無ですが、$Y_\text{mis}$ は観測されていないためデータからは判別できません。MCAR からの逸脱（欠損の有無と観測値の間の関連）はデータから検出できますが、逸脱が検出されないことは MCAR の証拠にはなりません。

欠損メカニズムの判断にはデータ生成過程の知識が必要です。測定がどのような条件で行われたか、どのような理由で欠損が生じたかを、分析に先立って検討してください。

## 参考文献 {#references}

- <span id="ref-rubin-1976">Rubin, D. B. (1976). Inference and missing data. *Biometrika*, 63(3), 581--592. https://www.jstor.org/stable/2335739</span>

## See also {#see-also}

- **[データ型と測定尺度](concepts-data-types)** -- 欠損値（null）の扱いを含むデータ型の説明
- **[データの準備と読み込み](data-preparation)** -- CSV の空セルが null として読み込まれる仕組み