OLS の基礎

Linear Regression タブで使われている統計理論の背景です。操作方法は Linear Regression のページを参照してください。

モデルの定式化

線形回帰モデルは次のように定式化されます:

Y = X\beta + \varepsilon

$Y$ は $n \times 1$ の応答変数ベクトル、 $X$ は $n \times p$ の計画行列（説明変数と切片項）、 $\beta$ は $p \times 1$ の回帰係数ベクトル、 $\varepsilon$ は誤差項です。

OLS 推定量は残差平方和 $\|Y - X\beta\|^2$ を最小化する解で、正規方程式から得られます:

\hat\beta = (X'X)^{-1}X'Y

$X$ が列フルランクであるとき $(X'X)$ は正則になり、この解が一意に定まります。

この推定量の性質は、誤差項 $\varepsilon$ への仮定に依存します。一致性は漸近的な性質（ $n \to \infty$ での収束）、不偏性は有限標本の性質（ $E[\hat\beta] = \beta$ ）であり、概念として独立です。

一致性: $\operatorname{plim}(X'\varepsilon/n) = 0$ かつ $\operatorname{plim}(X'X/n)$ が正則であるとき、OLS 推定量は一致性を持ちます。等分散性や誤差の無相関は不要です。 $\operatorname{plim}$ は確率極限を表します。

不偏性: $E[\varepsilon \mid X] = 0$ のとき、OLS 推定量は不偏です。等分散性は不要です。

BLUE: $E[\varepsilon \mid X] = 0$ かつ $\operatorname{Var}(\varepsilon \mid X) = \sigma^2 I$ （等分散・無相関）を仮定すると、Gauss-Markov の定理により OLS 推定量は線形不偏推定量の中で最小分散です（BLUE: Best Linear Unbiased Estimator）。

正規性に基づく推論: $\varepsilon \sim N(0, \sigma^2 I)$ を仮定すると、 $t$ 検定や $F$ 検定の有限標本での正確な分布が得られます。正規性を仮定しない場合でも、誤差に有限分散が存在すれば、大標本では中心極限定理により $\hat\beta$ は漸近正規性を持ち、 $t$ 統計量や $F$ 統計量の漸近分布が得られます。必要なサンプルサイズは誤差の真の分布に依存するため、一律の基準はありません。残差の Q-Q プロットで強い歪みや裾の重さが見られる場合は、漸近近似の信頼性が低下します（残差診断プロットを参照）。

OLS は GLM の特殊ケース（Gaussian ファミリー + Identity リンク）です。

標準化残差と診断統計量

OLS の残差診断では internally studentized residual（この文書では「標準化残差」と呼びます） $r_i^*$ を使います:

r_i^* = \frac{e_i}{\hat\sigma\sqrt{1 - h_i}}

$e_i = y_i - \hat y_i$ は残差、 $\hat\sigma = \sqrt{\text{RSS}/(n - p)}$ は全観測値から推定した誤差の標準偏差です。 $p$ は切片を含む計画行列 $X$ の列数です。残差の分散は $\operatorname{Var}(e_i) = \sigma^2(1 - h_i)$ であるため、 $\hat\sigma\sqrt{1 - h_i}$ で割ることで分散を均一化しています。

$h_i = \operatorname{diag}(H)_i$ は Hat 行列 $H = X(X'X)^{-1}X'$ の対角要素で、てこ比（leverage）と呼ばれます。 $H$ は冪等行列であるため $0 \le h_i \le 1$ です。切片を含むモデルでは $h_i \ge 1/n$ が成り立ちます。てこ比は説明変数空間で観測値が他の観測値からどれだけ離れているかを表す指標です。 $\operatorname{tr}(H) = p$ であることから平均てこ比は $p/n$ となり、その2倍 $2p/n$ が高レバレッジの慣用的な閾値として使われます。

Cook's Distance は残差の大きさとてこ比を1つの指標にまとめたもので、ある観測値を除外したときに推定結果全体がどれだけ変わるかを測ります:

D_i = \frac{r_i^{*2}}{p} \cdot \frac{h_i}{1 - h_i}

判定基準と可視化については Linear Regression を参照してください。

多重共線性と VIF

説明変数間の相関が高いと $(X'X)$ が特異行列に近づき、係数の推定が不安定になります。

VIF（Variance Inflation Factor）= $1 / (1 - R_j^2)$ は、 $X_j$ を他の説明変数で回帰したときの決定係数 $R_j^2$ から計算されます。 $R_j^2$ が高いほど $X_j$ の変動の大部分が他の変数で説明でき、 $X_j$ 固有の情報が少ないことを意味します。VIF は情報の少なさが $\hat\beta_j$ の分散を何倍に膨張させているかを示します。たとえば VIF = 5 なら、 $X_j$ が他の変数と無相関だった場合に比べて標準誤差が $\sqrt{5} \approx 2.2$ 倍に広がっています。 $\hat\beta_j$ 自体は不偏ですが、推定の確からしさが下がり、信頼区間が広がります。慣用的に VIF > 10 を多重共線性の深刻な兆候とする文献が多いですが（Marquardt, 1970）、一律の閾値ではなく推定精度の要求に依存します。

参考文献

Marquardt, D. W. (1970). Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation. Technometrics, 12(3), 591-612. https://www.jstor.org/stable/1267205

OLS の基礎

モデルの定式化

標準化残差と診断統計量

多重共線性と VIF

参考文献

See also