Linear Regression(線形回帰分析)

Linear Regression タブでは、最小二乗法(OLS)による線形回帰分析を実行できます。OLS は残差平方和を最小化する回帰係数 β^=(XX)1XY\hat\beta = (X'X)^{-1}X'Y を求める手法です。数理的な背景は回帰分析の基礎を参照してください。

カウントデータや二値データなど、正規分布を仮定できない応答変数には GLM(一般化線形モデル) を使用してください。

基本的な使い方

Linear Regression を開く

メニューバーから Analysis > Linear Regression (OLS)... を選択すると、新しい Linear Regression タブが開きます。

変数の設定

変数の設定

Dataset で分析対象のデータセットを選択します。

Response Variable (Y) で目的変数を選択します。数値型(int64, float64)の列のみ選択できます。

Predictor Variables (X) で説明変数を選択します。チェックボックスで複数の変数を選択できます。数値型の列のみ選択可能で、非数値型の列はグレーアウト表示されます。カテゴリ変数を使用する場合は、事前に Dummy Coding タブで数値変換が必要です(注意事項を参照)。

Include intercept で切片項の有無を設定します。デフォルトでオンです。

設定が完了したら、Run Analysis ボタンをクリックして分析を実行します。

結果の見方

Model Summary

分析結果

モデル全体の適合度を示します。

指標説明
R-squaredモデルが説明する分散の割合(0〜1)
Adj. R-squared説明変数の数で自由度調整した R-squared: 1(1R2)(n1)/(np)1 - (1-R^2)(n-1)/(n-p)。変数追加で R2R^2 は単調増加するが、Adj. R-squared は不必要な変数の追加で下がりうる
F-statisticモデル全体の有意性検定(p 値つき)
RMSE残差の標準偏差(予測誤差の目安)
N (observations)分析に使用した観測数

欠損値や無効な値を含む行が除外された場合、除外件数を表示します。

Coefficients(係数テーブル)

説明
Variable変数名(切片は "(Intercept)")
Estimate回帰係数の推定値 β^\hat\beta
Std. Error標準誤差 diag(σ^2(XX)1)\sqrt{\operatorname{diag}\bigl(\hat\sigma^2 (X'X)^{-1}\bigr)}
t valuett 統計量 t=β^/SE(β^)t = \hat\beta / \operatorname{SE}(\hat\beta)。自由度 npn - ptt 分布に従う
Pr(>|t|)tt 分布に基づく両側 p 値
(有意水準マーク)*** p<0.001, ** p<0.01, * p<0.05, . p<0.1
Lower 95% / Upper 95%95%信頼区間 β^±tα/2,np×SE(β^)\hat\beta \pm t_{\alpha/2,\, n-p} \times \operatorname{SE}(\hat\beta)
Std. Coef.標準化係数 β^j×sXj/sY\hat\beta_j \times s_{X_j} / s_Y。変数間の効果量を比較可能(切片には N/A)
VIF分散拡大係数(多重共線性を参照)

誤差が正規分布に従えば、OLS の tt 検定は標本サイズによらず正確です。

係数テーブルは Save as Dataset ボタンでデータセットとして保存し、CSV にエクスポートできます。

係数の解釈

係数は応答変数のスケールで直接解釈できます。

  • 連続変数: 他の変数を一定に保ったとき、XjX_j が1単位増加すると YY の期待値は β^j\hat\beta_j だけ変化する
  • ダミー変数: 参照カテゴリに対する YY の期待値の差を表す
  • 切片: すべての説明変数が0のときの YY の期待値
  • 標準化係数(Std. Coef.): 変数を標準偏差単位に統一しているため、異なるスケールの変数間で効果量を直接比較できる

Model Fit

指標説明
Residual Deviance残差平方和 RSS=(yiy^i)2\text{RSS} = \sum(y_i - \hat y_i)^2
Null Deviance全平方和 TSS=(yiyˉ)2\text{TSS} = \sum(y_i - \bar y)^2
AIC赤池情報量規準 AIC=2+2p\text{AIC} = -2\ell + 2p。値が小さいほどよい
BICベイズ情報量規準 BIC=2+plnn\text{BIC} = -2\ell + p \ln n。AIC よりモデルの複雑さに強いペナルティを課す

ANOVA Table

ANOVA テーブル

各説明変数の寄与を分散分析で評価します。Type IType III をラジオボタンで切り替えられます。

  • Type I(Sequential): 変数を投入した順番で平方和を計算。変数の投入順序によって結果が変わります。
  • Type III(Partial): 各変数を最後に投入した場合の平方和を計算。変数の投入順序に依存しません。
説明
Source変動の要因
SS平方和
df自由度
MS平均平方(SS / df)
FF 統計量(MS / MS_Residual)
Pr(>F)F 分布に基づく p 値

Prediction & Confidence Intervals

各観測値の予測値と区間推定を表示します。

説明
Obs観測番号
Fitted予測値
95% CI Lower / Upper平均応答の95%信頼区間
95% PI Lower / Upper個々の観測値の95%予測区間

信頼区間(CI)は母平均の推定精度を、予測区間(PI)は新しい個々の観測値の変動範囲を表します。PI は CI より常に広くなります。信頼水準は 95% 固定です。

100行を超える場合は最初の50行のみ表示します。Show all N rows で全行を展開できます。

モデルの保存と診断

モデルの保存

分析結果をプロジェクトに保存し、診断プロットを確認します。

モデルの保存

Model Name フィールドにモデル名を入力し、Save Model ボタンをクリックします。モデル名はデフォルトで「Linear Regression: Y ~ X1 + X2」の形式で自動生成されます。

同じ設定(データセット、目的変数、説明変数)の既存モデルがある場合、上書き確認ダイアログが出ます。

モデル保存時に生成されるデータ

モデルを保存すると、元のデータセットに診断統計量の列を追加した派生データセットが自動生成されます。

列名数式での記号内容
fitted_valuesy^i\hat y_i予測値
deviance_residualsei=yiy^ie_i = y_i - \hat y_i残差
standardized_residualsri=ei/(σ^1hi)r_i^* = e_i / (\hat\sigma\sqrt{1 - h_i})標準化残差
leveragehih_iてこ比(Hat 行列の対角要素)
cooks_distanceDiD_iCook's Distance

診断と詳細

モデル保存後、2つのボタンが使えるようになります。

  • View Model Details - モデルの詳細情報を表示する Model Detail タブを開きます
  • View Diagnostics - 残差診断プロットを表示する Residual Diagnostics タブを開きます

残差診断プロット

View Diagnostics をクリックすると4つの診断プロットが開きます。OLS 回帰の仮定が成り立っているかを確認できます。

OLS 回帰の仮定:

  1. 線形性 - 目的変数と説明変数の間に線形関係がある
  2. 正規性 - 残差が正規分布に従う
  3. 等分散性 - 残差の分散が予測値に依存せず一定である
  4. 独立性 - 残差が互いに独立である(診断プロットでは直接確認できない)。データに階層・クラスター構造がある場合は GLMM のランダム効果を検討してください。時系列的な系列相関がある場合、MIDAS には現在対応する機能がありません

残差診断プロット

診断プロットでは標準化残差 rir_i^* を使用します。数式の詳細は回帰分析の基礎を参照してください。

Residuals vs Fitted(残差 vs 予測値)

横軸に予測値 y^\hat y、縦軸に残差 eie_i をプロットします。モデルが適切なら、残差はゼロの周囲にランダムに散らばります。

  • 曲線的パターン: 説明変数の非線形効果が欠落している可能性
  • 漏斗状パターン: 不等分散の可能性(Scale-Location プロットで詳しく確認)

Normal Q-Q Plot(正規 Q-Q プロット)

標準化残差 rir_i^* の分位数を標準正規分布の理論分位数に対してプロットします。残差が正規分布に従っていれば点は対角線上に並びます。両端で外れる場合は裾が重い分布(外れ値が多い)、S 字型に外れる場合は歪みがあることを示します。

Scale-Location(尺度-位置プロット)

横軸に予測値、縦軸に ri\sqrt{|r_i^*|} をプロットします。分散が一定なら点は水平方向に均等に散らばります。予測値が大きくなるにつれて点が広がる(漏斗状)パターンや右上がりの傾向は、不等分散を示します。不等分散がある場合、係数の推定値は不偏ですが標準誤差が不正確になり、信頼区間と p 値が信頼できなくなります。MIDAS は現在ロバスト標準誤差を実装していません。不等分散が疑われる場合は、応答変数の対数変換や、分散構造をモデル化できる GLM の使用を検討してください。

Residuals vs Leverage(残差 vs てこ比)

横軸にてこ比 hih_i、縦軸に標準化残差 rir_i^* をプロットします。Cook (1977) の Cook's Distance 等高線(D=0.5D = 0.5: オレンジ破線、D=1.0D = 1.0: 赤破線)を重ねて表示します。Cook は DiD_iFp,npF_{p,\, n-p} 分布の50パーセンタイルと比較することを提案しており、多くの場合1前後の値になります。ただしこれは形式的な棄却域ではなく、観測値間の影響度を相対的に比較するための目安です。

  • てこ比(Leverage): 説明変数空間で観測値が他からどれだけ離れているかを示す。2p/n2p/n が高レバレッジの閾値
  • Cook's Distance: てこ比と残差の大きさを1つの影響度指標にまとめたもの

等高線の外側に位置する観測値は、その1点を除外するだけでモデルの推定結果が大きく変わる可能性があります。

ポイントの選択

プロット上でデータポイントをクリックまたは矩形選択すると、該当する観測値の詳細(予測値、残差、てこ比、Cook's Distance 等)をプロット下部のテーブルに表示します。選択状態は4つのプロット間で同期します。

注意事項

カテゴリ変数の使用

OLS 回帰では数値型の変数のみ使用できます。文字列型やブール型などのカテゴリ変数を説明変数として使用するには、Dummy Coding タブで数値のダミー変数に変換してから分析を行います。

欠損値・無効値の自動除外

欠損値(null)、非数値、無限大を含む行は自動的に除外します。除外した行数は Model Summary に表示します。

多重共線性

説明変数間の相関が高いと係数の推定が不安定になります。係数テーブルの VIF(Variance Inflation Factor)が大きい変数がある場合、冗長な変数の除外や統合を検討してください。VIF の詳細は回帰分析の基礎を参照してください。

サンプルサイズと正規性

tt 検定と FF 検定の有限標本での正確性は誤差の正規性に依存します。大標本では中心極限定理が効きますが、小標本では Q-Q プロットで残差の正規性を確認してください。必要なサンプルサイズは誤差の真の分布次第で、一律の基準はありません。

参考文献

  • Cook, R. D. (1977). Detection of influential observation in linear regression. Technometrics, 19(1), 15-18.

Next steps

See also