統計用語集

MIDAS のドキュメントで使われる統計用語の定義集です。用語は英語アルファベット順です。

漸近正規性(asymptotic normality)

サンプルサイズ nn \to \infty推定量の分布が正規分布に分布収束する性質です。適切な正規化のもとで

n(θ^nθ)dN(0,V)\sqrt{n}(\hat\theta_n - \theta) \xrightarrow{d} N(0, V)

が成り立ちます。VV は漸近分散行列で、推定量の種類によって異なります。最尤推定量は正則条件のもとで漸近正規性を持ちます(Casella & Berger, 2002, Ch. 10)。正規性を仮定しない OLS でも、大標本では中心極限定理により β^\hat\beta が漸近的に正規分布に従います(OLS の基礎)。

漸近有効性(asymptotic efficiency)

一致かつ漸近正規推定量(CAN 推定量)のクラスで漸近分散が最小になる性質です。漸近有効な推定量は漸近 Cramer-Rao 下界(Fisher 情報量行列の逆行列で定まる漸近分散の下限)に到達します。最尤推定量正則条件のもとで漸近有効性を持ちます(Casella & Berger, 2002, Ch. 10)。

一致性(consistency)

推定量 θ^n\hat\theta_n がサンプルサイズ nn \to \infty で真のパラメータ θ\theta確率収束する性質です。θ^npθ\hat\theta_n \xrightarrow{p} \theta と書きます。

一致性は推定量の基本的な要件で、サンプルを増やせば正しい値に近づくことを保証します。ただし一致性だけでは、サンプルサイズが有限のときの推定精度については何も言えません。OLS 推定量は plim(Xε/n)=0\operatorname{plim}(X'\varepsilon/n) = 0plim\operatorname{plim}確率収束の極限値を表す記号)かつ plim(XX/n)\operatorname{plim}(X'X/n) が正則であるとき一致性を持ちます。この条件には等分散性や誤差の無相関は含まれません(OLS の基礎)。

分布収束(convergence in distribution)

確率変数の列 XnX_n の分布が、nn \to \infty で別の分布に近づく収束概念です。XnX_n の分布関数 Fn(x)F_n(x) が極限の分布関数 F(x)F(x) の各連続点で Fn(x)F(x)F_n(x) \to F(x) を満たすとき、XndXX_n \xrightarrow{d} X と書きます。

確率収束が「特定の値に近づく」ことを意味するのに対し、分布収束は「分布の形が特定の分布に近づく」ことを意味します。確率収束は分布収束を含意します。逆は一般には成り立ちませんが、極限が定数の場合に限り、定数への分布収束は定数への確率収束と同値です。漸近正規性はこの概念で定義されます。

確率収束(convergence in probability)

確率変数の列 XnX_n がある定数 cc に近づく収束概念です。一般には確率変数への収束としても定義されますが、ここでは一致性の定義で使うパラメータへの収束に限定します。任意の ε>0\varepsilon > 0 に対して

P(Xnc>ε)0(n)P(|X_n - c| > \varepsilon) \to 0 \quad (n \to \infty)

が成り立つとき、XnpcX_n \xrightarrow{p} c と書きます。nn が大きくなるにつれて XnX_ncc から離れる確率がゼロに近づきます。推定量一致性はこの概念で定義されます。plimXn=c\operatorname{plim} X_n = cXnpcX_n \xrightarrow{p} c と同じ意味です。

Delta 法(delta method)

推定量の非線形関数 g(θ^)g(\hat\theta) の分散を近似する手法です。gg を真の値 θ\theta の周りで1次テイラー展開し、

Var(g(θ^))g(θ)2Var(θ^)\operatorname{Var}(g(\hat\theta)) \approx g'(\theta)^2 \operatorname{Var}(\hat\theta)

と近似します。多変量の場合は勾配ベクトル g\nabla g と分散共分散行列 Σ\Sigma を使って gΣg\nabla g^\top \Sigma \, \nabla g です。

用量反応分析では、回帰係数の非線形な関数(LD50 など)の信頼区間を構成するときに使います。LD50 = exp(β^0/β^1)\exp(-\hat\beta_0 / \hat\beta_1) の場合、g(β^0,β^1)=β^0/β^1g(\hat\beta_0, \hat\beta_1) = -\hat\beta_0 / \hat\beta_1 の偏微分と係数の分散共分散行列から分散を近似し、対数スケールで信頼区間を求めてから指数変換します。

Delta 法は漸近正規性に依存するため、小標本では近似精度が下がります。パラメータの比に対しては Fieller 法のほうが小標本での性能が良いことが知られています(Casella & Berger, 2002)。

Fieller 法(Fieller's method)

2つのパラメータの比 ρ=β0/β1\rho = \beta_0 / \beta_1 の信頼区間を直接求める方法です。Delta 法が g(θ^)g(\hat\theta) を線形近似するのに対し、Fieller 法は推定量の正規性の仮定のもとで、テイラー近似を経由せずに信頼領域を導出します。

β^0ρβ^1=0\hat\beta_0 - \rho \hat\beta_1 = 0ρ\rho について解くと、ρ\rho の信頼区間は (β^0ρβ^1)(\hat\beta_0 - \rho \hat\beta_1) の分散を使った二次不等式の解として得られます。テイラー展開による近似を経由しないため、β^1\hat\beta_1 がゼロに近い場合(比が不安定な場合)でも信頼区間が適切に広がります。推定量が正規分布に正確に従う場合は厳密な信頼区間を与えますが、GLM のように正規性が漸近的にしか成り立たない場合は近似になります。

用量反応分析では LD50 = exp(β0/β1)\exp(-\beta_0 / \beta_1) の区間推定に使われます(Fieller, 1954)。

逸脱度(deviance)

モデルの適合度を測る指標で、飽和モデルとの対数尤度の差に基づきます:

D=2(saturatedmodel)D = 2(\ell_{\text{saturated}} - \ell_{\text{model}})

飽和モデルは各共変量パターンに個別のパラメータを割り当て、データを完全に再現するモデルです。個体レベルの観測ではパラメータ数が観測数に等しくなりますが、grouped data ではパラメータ数は共変量パターンの数に等しくなります。正規分布を仮定した場合、逸脱度は残差平方和に帰着します。逸脱度はこの関係を任意の指数型分布族に一般化した適合度指標です。逸脱度が大きいほどモデルの適合が悪いことを示します。GLMM ではペナルティ付き逸脱度がパラメータ推定に使われます(GLMM の基礎)。

推定量(estimator)

データから未知のパラメータを推測するための関数です。データが確率変数である限り推定量自体も確率変数であり、標本ごとに異なる値を取ります。推定量にデータを代入して得た具体的な数値を推定値(estimate)と呼びます。

たとえば標本平均 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i は母平均 μ\mu の推定量です。推定量の良さは一致性不偏性漸近正規性などの性質で評価されます。

カーネル密度推定(kernel density estimation)

データの確率密度関数を推定するノンパラメトリックな手法です。各データ点にカーネル関数(通常はガウシアンカーネル)を配置し、それらを合算することで滑らかな密度曲線を得ます。nn 個のデータ x1,,xnx_1, \ldots, x_n に対して、推定密度は

f^(x)=1nhi=1nK ⁣(xxih)\hat{f}(x) = \frac{1}{n h} \sum_{i=1}^{n} K\!\left(\frac{x - x_i}{h}\right)

です。KK はカーネル関数、hh はバンド幅です。バンド幅はカーネル関数の広がりを制御するパラメータで、大きいほど滑らかな曲線になり、小さいほどデータの細かい構造を反映します。

ヒストグラムがビンの区切り位置に依存するのに対し、カーネル密度推定はデータから直接滑らかな分布を推定します。MIDAS では Graph Builder のヒストグラムの密度曲線(1変量)と散布図の密度等高線(2変量)にこの手法を使用しています。

1変量の場合、バンド幅は Silverman の経験則 h=0.9min(σ^,IQR/1.34)n1/5h = 0.9 \cdot \min(\hat\sigma, \mathrm{IQR}/1.34) \cdot n^{-1/5} で自動計算されます。この経験則は単峰で正規分布に近い分布を前提として導出されているため、多峰分布では過度に平滑化されてピークが潰れることがあります。ビン数を変えたヒストグラムと見比べて、密度曲線が分布の特徴を適切に捉えているか確認してください。

2変量の場合、バンド幅は Scott's rule に基づき h=n1/6σˉh = n^{-1/6} \cdot \bar\sigmaσˉ\bar\sigma は X・Y 方向の標準偏差の平均)で自動計算されます。Scott's rule は本来各軸ごとに hj=n1/6σ^jh_j = n^{-1/6} \cdot \hat\sigma_j と異なるバンド幅を使いますが、MIDAS では標準偏差の平均による等方的な単一バンド幅を採用しています。両軸のスケールが大きく異なる場合は一方の軸で過度に平滑化される可能性があります。

LOESS(局所重み付け回帰)

局所的な重み付き回帰を繰り返すことで、データの全体的なトレンドを滑らかな曲線で表現するノンパラメトリック回帰手法です。LOcally Estimated Scatterplot Smoothing の略です。

各点 x0x_0 について、近傍のデータ点に距離に応じた重みを付けて1次多項式(局所線形回帰)を当てはめ、x0x_0 での予測値を求めます。この手順をすべての点について繰り返すことで曲線全体を構成します。重み関数にはトリキューブ関数 w(u)=(1u3)3w(u) = (1 - |u|^3)^3 が使われます。

スパンは0から1の値を取り、各点の予測に使用するデータ点の割合を指定するパラメータです。値が大きいほど多くのデータ点を使って回帰するため、滑らかな曲線になります。MIDAS の Graph Builder では日時ヒストグラムのトレンドラインに LOESS を使用しており、スパンは0.75(全データ点の75%を近傍として使用)に固定されています。

尤度と対数尤度(likelihood / log-likelihood)

尤度は確率密度(質量)関数 f(yθ)f(y \mid \theta) と同じ数式を、θ\theta の関数として読み替えたものです。f(yθ)f(y \mid \theta)yy の関数として見れば確率密度(質量)関数、θ\theta の関数として見れば尤度関数です。1つの観測に対して L(θ)=f(yθ)L(\theta) = f(y \mid \theta)、独立な nn 個の観測に対して L(θ)=i=1nf(yiθ)L(\theta) = \prod_{i=1}^n f(y_i \mid \theta) です。

対数尤度は尤度の自然対数 (θ)=logL(θ)\ell(\theta) = \log L(\theta) です。独立な観測の尤度は積になりますが、対数を取ると和になるため数値計算で扱いやすくなります。尤度と対数尤度は単調変換の関係にあり、最大化の結果は一致します。

GLM のパラメータ推定(GLM の基礎)、GLMM の Laplace 近似(GLMM の基礎)、Cox モデルの部分尤度(生存分析の基礎)はいずれも対数尤度に基づいています。

最尤推定量(maximum likelihood estimator)

尤度関数を最大化するパラメータの値 θ^ML=argmaxθL(θ;y)\hat\theta_{\text{ML}} = \arg\max_\theta L(\theta; y) です。

モデルが正しく特定されており、正則条件を満たす場合、一致性漸近正規性漸近有効性を持ちます(Casella & Berger, 2002, Ch. 10)。正則条件とは、尤度関数が十分に滑らかで、パラメータが境界上にないことなど、漸近理論の適用に必要な技術的条件の総称です。GLM では解析解が得られないため IRLS で数値的に求めます(GLM の基礎)。

過分散(overdispersion)

データの分散がモデルの仮定する分散より大きい状態です。Poisson や Binomial では分布の構造から分散パラメータ ϕ=1\phi = 1 が定まり、これに基づいて標準誤差を計算します。実際の分散がこの理論的分散を超えている場合、標準誤差が過小になります。その結果、信頼区間が狭くなりすぎ、係数に対する Wald 検定や尤度比検定の偽陽性率が名目水準を超えます。Poisson で過分散が検出された場合、Negative Binomial に切り替えることで過分散を明示的にモデル化できます。Binomial の過分散への対処については GLM の基礎を参照してください。

十分統計量(sufficient statistic)

パラメータ θ\theta に関するデータの情報をすべて保持する統計量です。T(X)T(X)θ\theta の十分統計量であるとは、T(X)T(X) の値が与えられたもとでのデータ XX の条件付き分布が θ\theta に依存しないことを意味します。Fisher-Neyman の分解定理により、T(X)T(X) が十分統計量である必要十分条件は同時密度(質量)関数が f(xθ)=g(T(x),θ)h(x)f(x|\theta) = g(T(x), \theta) \cdot h(x) と分解できることです。

十分統計量にデータを集約しても θ\theta の推定に必要な情報は失われません。GLM で正準リンクを使うと XyX'yβ\beta の十分統計量になり、対数尤度β\beta について凹になります。計画行列がフルランクであれば最尤推定量が一意に定まります。IRLS も通常は安定して収束します(GLM の基礎)。

不偏性(unbiasedness)

推定量の期待値が真のパラメータに一致する性質で、E[θ^]=θE[\hat\theta] = \theta と書きます。

不偏性と一致性は独立な概念で、不偏だが一致でない推定量も、一致だが有限標本で不偏でない推定量も存在します。OLS 推定量は E[ε]=0E[\varepsilon] = 0 のもとで不偏です。さらに等分散・無相関(Var(ε)=σ2I\operatorname{Var}(\varepsilon) = \sigma^2 I)を仮定すると、Gauss-Markov の定理により線形不偏推定量の中で分散が最小になります(BLUE)。最尤推定量は一般に有限標本では不偏ではありませんが、一致性と漸近有効性を持ちます(OLS の基礎)。

分散関数(variance function)

指数型分布族において平均 μ\mu と分散の関係を規定する関数 V(μ)V(\mu) です。Var(Y)=V(μ)a(ϕ)\operatorname{Var}(Y) = V(\mu) \cdot a(\phi) が成り立ちます。a(ϕ)a(\phi) は分散パラメータ ϕ\phi によるスケーリング関数です。V(μ)V(\mu) は対数分配関数 b(θ)b(\theta) の二階微分 b(θ)b''(\theta)μ\mu の関数として書き直したものです。

Poisson では V(μ)=μV(\mu) = \mu、Binomial では V(μ)=μ(1μ)V(\mu) = \mu(1-\mu)、Gamma では V(μ)=μ2V(\mu) = \mu^2 です(GLM の基礎McCullagh & Nelder, 1989)。

参考文献

  • Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
  • Fieller, E. C. (1954). Some problems in interval estimation. Journal of the Royal Statistical Society: Series B, 16(2), 175-185.
  • McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman and Hall/CRC.