---
title: OLS の基礎
description: 最小二乗法（OLS）の数理的背景。正規方程式、Gauss-Markov の定理、標準化残差、Cook's Distance、VIF について解説します。
priority: 0.5
---

# OLS の基礎 {#ols-fundamentals}

[Linear Regression](linear-regression) タブで使われている統計理論の背景です。操作方法は Linear Regression のページを参照してください。

## モデルの定式化 {#model-formulation}

線形回帰モデルは次のように定式化されます:

$$
Y = X\beta + \varepsilon
$$

$Y$ は $n \times 1$ の応答変数ベクトル、$X$ は $n \times p$ の計画行列（説明変数と切片項）、$\beta$ は $p \times 1$ の回帰係数ベクトル、$\varepsilon$ は誤差項です。

OLS 推定量は残差平方和 $\|Y - X\beta\|^2$ を最小化する解で、正規方程式から得られます:

$$
\hat\beta = (X'X)^{-1}X'Y
$$

$X$ が列フルランクであるとき $(X'X)$ は正則になり、この解が一意に定まります。

この推定量の性質は、誤差項 $\varepsilon$ への仮定に依存します。[一致性](glossary#consistency) は漸近的な性質（$n \to \infty$ での収束）、[不偏性](glossary#unbiasedness) は有限標本の性質（$E[\hat\beta] = \beta$）であり、概念として独立です。たとえば [最尤推定量](glossary#mle) は正則条件のもとで一致性を持ちますが、一般に有限標本では不偏ではありません。

**一致性**: $\operatorname{plim}(X'\varepsilon/n) = 0$（$\operatorname{plim}$ は [確率極限](glossary#convergence-in-probability) を表します）かつ $\operatorname{plim}(X'X/n)$ が正則であるとき、OLS 推定量は一致性を持ちます。等分散性や誤差の無相関は不要です。一方、関連する変数のモデルからの欠落や説明変数の測定誤差などにより説明変数と誤差が相関する場合はこの条件が破れ、OLS 推定量は一致性を失います。

**不偏性**: $E[\varepsilon \mid X] = 0$ のとき、OLS 推定量は不偏です。等分散性は不要です。

**BLUE**: $E[\varepsilon \mid X] = 0$ かつ $\operatorname{Var}(\varepsilon \mid X) = \sigma^2 I$（等分散・無相関）を仮定すると、Gauss-Markov の定理により OLS 推定量は線形不偏推定量の中で最小分散です（BLUE: Best Linear Unbiased Estimator）。ここでの線形推定量は、$X$ のみに依存する行列 $C$ を用いて $CY$ の形で書ける推定量を指します。

**正規性に基づく推論**: $\varepsilon \sim N(0, \sigma^2 I)$ を仮定すると、$\hat\beta$ の標本分布が有限標本で正確に定まり、$t$ 分布に基づく信頼区間 $\hat\beta \pm t_{\alpha/2,\, n-p} \times \operatorname{SE}(\hat\beta)$ が正確な被覆確率を持ちます。正規性を仮定しない場合でも、誤差に有限分散が存在すれば、大標本では中心極限定理により $\hat\beta$ は漸近正規性を持ち、信頼区間の被覆確率は名目水準に近づきます。必要なサンプルサイズは誤差の真の分布に依存するため、一律の基準はありません。残差の Q-Q プロットで強い歪みや裾の重さが見られる場合は、漸近近似の信頼性が低下します（[残差診断プロット](linear-regression#residual-diagnostics) を参照）。

OLS は [GLM](concepts-glm) の特殊ケース（Gaussian ファミリー + Identity リンク）です。

## 標準化残差と診断統計量 {#standardized-residuals-and-diagnostic-statistics}

OLS の残差診断では internally studentized residual（この文書では「標準化残差」と呼びます）$r_i^*$ を使います:

$$
r_i^* = \frac{e_i}{\hat\sigma\sqrt{1 - h_i}}
$$

$e_i = y_i - \hat y_i$ は残差、$\hat\sigma = \sqrt{\text{RSS}/(n - p)}$ は全観測値から推定した誤差の標準偏差です。$p$ は切片を含む計画行列 $X$ の列数です。残差の分散は $\operatorname{Var}(e_i) = \sigma^2(1 - h_i)$ であるため、$\hat\sigma\sqrt{1 - h_i}$ で割ることで分散を均一化しています。

$h_i = \operatorname{diag}(H)_i$ は Hat 行列 $H = X(X'X)^{-1}X'$ の対角要素で、てこ比（leverage）と呼ばれます。$H$ は対称な冪等行列（直交射影行列）であるため $0 \le h_i \le 1$ です。切片を含むモデルでは $h_i \ge 1/n$ が成り立ちます。てこ比は説明変数空間で観測値が他の観測値からどれだけ離れているかを表す指標です。$\operatorname{tr}(H) = p$ であることから平均てこ比は $p/n$ となり、その2倍 $2p/n$ が高レバレッジの慣用的な閾値として使われます。

Cook's Distance は残差の大きさとてこ比を1つの指標にまとめたもので、ある観測値を除外したときに推定結果全体がどれだけ変わるかを測ります:

$$
D_i = \frac{r_i^{*2}}{p} \cdot \frac{h_i}{1 - h_i}
$$

判定基準と可視化については [Linear Regression](linear-regression#residual-diagnostics) を参照してください。

## 多重共線性と VIF {#multicollinearity-and-vif}

説明変数間の相関が高いと $(X'X)$ が特異行列に近づき、係数の推定が不安定になります。

VIF（Variance Inflation Factor）= $1 / (1 - R_j^2)$ は、$X_j$ を他の説明変数で回帰したときの決定係数 $R_j^2$ から計算されます。$R_j^2$ が高いほど $X_j$ の変動の大部分が他の変数で説明でき、$X_j$ 固有の情報が少ないことを意味します。VIF は情報の少なさが $\hat\beta_j$ の分散を何倍に膨張させているかを示します。たとえば VIF = 5 なら、$X_j$ が他の変数と無相関だった場合に比べて標準誤差が $\sqrt{5} \approx 2.2$ 倍に広がっています。$\hat\beta_j$ 自体は不偏ですが、分散の膨張により信頼区間が広がります。慣用的に VIF > 10 を多重共線性の深刻な兆候とする文献が多いですが（[Marquardt, 1970](#ref-marquardt-1970)）、一律の閾値ではなく推定精度の要求に依存します。

## 参考文献 {#references}

- <span id="ref-marquardt-1970">Marquardt, D. W. (1970). Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation. *Technometrics*, 12(3), 591-612. https://www.jstor.org/stable/1267205</span>

## See also {#see-also}

- **[Linear Regression](linear-regression)** - OLS 回帰分析の操作方法と結果の読み方
- **[GLM の基礎](concepts-glm)** - OLS を含む一般化線形モデルの理論
- **[統計用語集](glossary)** - 用語の定義