OLS の基礎

Linear Regression タブで使われている統計理論の背景です。操作方法は Linear Regression のページを参照してください。

モデルの定式化

線形回帰モデルは次のように定式化されます:

Y=Xβ+εY = X\beta + \varepsilon

YYn×1n \times 1 の応答変数ベクトル、XXn×pn \times p の計画行列(説明変数と切片項)、β\betap×1p \times 1 の回帰係数ベクトル、ε\varepsilon は誤差項です。

OLS 推定量は残差平方和 YXβ2\|Y - X\beta\|^2 を最小化する解で、正規方程式から得られます:

β^=(XX)1XY\hat\beta = (X'X)^{-1}X'Y

XX が列フルランクであるとき (XX)(X'X) は正則になり、この解が一意に定まります。

この推定量の性質は、誤差項 ε\varepsilon にどの仮定を置くかで段階的に変わります。弱い仮定では漸近的な性質のみが保証され、仮定を強めるほど有限標本での性質が加わります。

plim(Xε/n)=0\operatorname{plim}(X'\varepsilon/n) = 0 かつ plim(XX/n)\operatorname{plim}(X'X/n) が正則であることを仮定する場合: OLS 推定量は一致性を持ちます。等分散性や誤差の無相関は不要です。ここで plim\operatorname{plim}確率極限を表します。

さらに E[εX]=0E[\varepsilon \mid X] = 0 かつ Var(εX)=σ2I\operatorname{Var}(\varepsilon \mid X) = \sigma^2 I(等分散・無相関)を仮定する場合: Gauss-Markov の定理により、OLS 推定量は線形不偏推定量の中で最小分散です(BLUE: Best Linear Unbiased Estimator)。

さらに εN(0,σ2I)\varepsilon \sim N(0, \sigma^2 I)(正規性)を仮定する場合: tt 検定や FF 検定の有限標本での正確な分布が得られます。

正規性を仮定しない場合でも、誤差に有限分散が存在すれば、大標本では中心極限定理により β^\hat\beta は漸近正規性を持ちます。この結果、tt 統計量や FF 統計量の漸近分布が得られ、仮説検定や信頼区間の構成が可能になります。必要なサンプルサイズは誤差の真の分布に依存するため、一律の基準はありません。残差の Q-Q プロットで強い歪みや裾の重さが見られる場合は、漸近近似の信頼性が低下します(残差診断プロットを参照)。

OLS は GLM の特殊ケース(Gaussian ファミリー + Identity リンク)です。

標準化残差と診断統計量

OLS の残差診断では internally studentized residual(この文書では「標準化残差」と呼びます)rir_i^* を使います:

ri=eiσ^1hir_i^* = \frac{e_i}{\hat\sigma\sqrt{1 - h_i}}

ei=yiy^ie_i = y_i - \hat y_i は残差、σ^=RSS/(np)\hat\sigma = \sqrt{\text{RSS}/(n - p)} は全観測値から推定した誤差の標準偏差です。pp は切片を含む計画行列 XX の列数です。残差の分散は Var(ei)=σ2(1hi)\operatorname{Var}(e_i) = \sigma^2(1 - h_i) であるため、σ^1hi\hat\sigma\sqrt{1 - h_i} で割ることで分散を均一化しています。

hi=diag(H)ih_i = \operatorname{diag}(H)_i は Hat 行列 H=X(XX)1XH = X(X'X)^{-1}X' の対角要素で、てこ比(leverage)と呼ばれます。HH は冪等行列であるため 1/nhi11/n \le h_i \le 1 の範囲を取ります。てこ比は説明変数空間で観測値が他の観測値からどれだけ離れているかを表す指標です。tr(H)=p\operatorname{tr}(H) = p であることから平均てこ比は p/np/n となり、その2倍 2p/n2p/n が高レバレッジの慣用的な閾値として使われます。

Cook's Distance は残差の大きさとてこ比を1つの指標にまとめたもので、ある観測値を除外したときに推定結果全体がどれだけ変わるかを測ります:

Di=ri2phi1hiD_i = \frac{r_i^{*2}}{p} \cdot \frac{h_i}{1 - h_i}

判定基準と可視化については Linear Regression を参照してください。

多重共線性と VIF

説明変数間の相関が高いと (XX)(X'X) が特異行列に近づき、係数の推定が不安定になります。

VIF(Variance Inflation Factor)= 1/(1Rj2)1 / (1 - R_j^2) は、XjX_j を他の説明変数で回帰したときの決定係数 Rj2R_j^2 から計算されます。Rj2R_j^2 が高いほど XjX_j の変動の大部分が他の変数で説明でき、XjX_j 固有の情報が少ないことを意味します。VIF は情報の少なさが β^j\hat\beta_j の分散を何倍に膨張させているかを示します。たとえば VIF = 5 なら、XjX_j が他の変数と無相関だった場合に比べて標準誤差が 52.2\sqrt{5} \approx 2.2 倍に広がっています。β^j\hat\beta_j 自体は不偏ですが、推定の確からしさが下がり、信頼区間が広がります。慣用的に VIF > 10 を多重共線性の深刻な兆候とする文献が多いですが(Marquardt, 1970)、一律の閾値ではなく推定精度の要求に依存します。

参考文献

  • Marquardt, D. W. (1970). Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation. Technometrics, 12(3), 591-612.

See also