OLS の基礎
Linear Regression タブで使われている統計理論の背景です。操作方法は Linear Regression のページを参照してください。
モデルの定式化
線形回帰モデルは次のように定式化されます:
は の応答変数ベクトル、 は の計画行列(説明変数と切片項)、 は の回帰係数ベクトル、 は誤差項です。
OLS 推定量は残差平方和 を最小化する解で、正規方程式から得られます:
が列フルランクであるとき は正則になり、この解が一意に定まります。
この推定量の性質は、誤差項 にどの仮定を置くかで段階的に変わります。弱い仮定では漸近的な性質のみが保証され、仮定を強めるほど有限標本での性質が加わります。
かつ が正則であることを仮定する場合: OLS 推定量は一致性を持ちます。等分散性や誤差の無相関は不要です。ここで は確率極限を表します。
さらに かつ (等分散・無相関)を仮定する場合: Gauss-Markov の定理により、OLS 推定量は線形不偏推定量の中で最小分散です(BLUE: Best Linear Unbiased Estimator)。
さらに (正規性)を仮定する場合: 検定や 検定の有限標本での正確な分布が得られます。
正規性を仮定しない場合でも、誤差に有限分散が存在すれば、大標本では中心極限定理により は漸近正規性を持ちます。この結果、 統計量や 統計量の漸近分布が得られ、仮説検定や信頼区間の構成が可能になります。必要なサンプルサイズは誤差の真の分布に依存するため、一律の基準はありません。残差の Q-Q プロットで強い歪みや裾の重さが見られる場合は、漸近近似の信頼性が低下します(残差診断プロットを参照)。
OLS は GLM の特殊ケース(Gaussian ファミリー + Identity リンク)です。
標準化残差と診断統計量
OLS の残差診断では internally studentized residual(この文書では「標準化残差」と呼びます) を使います:
は残差、 は全観測値から推定した誤差の標準偏差です。 は切片を含む計画行列 の列数です。残差の分散は であるため、 で割ることで分散を均一化しています。
は Hat 行列 の対角要素で、てこ比(leverage)と呼ばれます。 は冪等行列であるため の範囲を取ります。てこ比は説明変数空間で観測値が他の観測値からどれだけ離れているかを表す指標です。 であることから平均てこ比は となり、その2倍 が高レバレッジの慣用的な閾値として使われます。
Cook's Distance は残差の大きさとてこ比を1つの指標にまとめたもので、ある観測値を除外したときに推定結果全体がどれだけ変わるかを測ります:
判定基準と可視化については Linear Regression を参照してください。
多重共線性と VIF
説明変数間の相関が高いと が特異行列に近づき、係数の推定が不安定になります。
VIF(Variance Inflation Factor)= は、 を他の説明変数で回帰したときの決定係数 から計算されます。 が高いほど の変動の大部分が他の変数で説明でき、 固有の情報が少ないことを意味します。VIF は情報の少なさが の分散を何倍に膨張させているかを示します。たとえば VIF = 5 なら、 が他の変数と無相関だった場合に比べて標準誤差が 倍に広がっています。 自体は不偏ですが、推定の確からしさが下がり、信頼区間が広がります。慣用的に VIF > 10 を多重共線性の深刻な兆候とする文献が多いですが(Marquardt, 1970)、一律の閾値ではなく推定精度の要求に依存します。
参考文献
- Marquardt, D. W. (1970). Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation. Technometrics, 12(3), 591-612.
See also
- Linear Regression - OLS 回帰分析の操作方法と結果の読み方
- GLM の基礎 - OLS を含む一般化線形モデルの理論
- 統計用語集 - 用語の定義