統計用語集

MIDAS のドキュメントで使われる統計用語の定義集です。用語は英語アルファベット順です。

漸近正規性(asymptotic normality)

サンプルサイズ nn \to \infty推定量の分布が正規分布に分布収束する性質です。適切な正規化のもとで

n(θ^nθ)dN(0,V)\sqrt{n}(\hat\theta_n - \theta) \xrightarrow{d} N(0, V)

が成り立ちます。矢印の上の dd は distribution の頭文字です。VV は漸近分散(θ^n\hat\theta_n がベクトルの場合は漸近共分散行列)で、推定量の種類によって異なります。最尤推定量は正則条件のもとで漸近正規性を持ちます。誤差の正規性を仮定しない OLS(Ordinary Least Squares、最小二乗法)でも、大標本では中心極限定理により n(β^β)\sqrt{n}(\hat\beta - \beta) が正規分布に分布収束します(OLS の基礎)。

漸近有効性(asymptotic efficiency)

正則条件のもとで、n(θ^nθ)\sqrt{n}(\hat\theta_n - \theta) の漸近分散が Fisher 情報量行列の逆行列 I(θ)1I(\theta)^{-1} に一致する性質です。ここで I(θ)I(\theta) は1観測あたりの Fisher 情報量行列を指します。Cramér-Rao の情報量不等式は、有限標本において正則な不偏推定量の分散がサンプル全体の Fisher 情報量 nI(θ)nI(\theta) の逆行列 (nI(θ))1(nI(\theta))^{-1} 以上になることを保証します。漸近有効性はこの下界を nn \to \infty で達成することを意味し、θ^n\hat\theta_n の分散は I(θ)1/nI(\theta)^{-1}/n のオーダーに収束します。最尤推定量は正則条件のもとで漸近有効性を持ちます。

一致性(consistency)

推定量 θ^n\hat\theta_n がサンプルサイズ nn \to \infty で真のパラメータ θ\theta確率収束する性質です。θ^npθ\hat\theta_n \xrightarrow{p} \theta と書きます。

一致性は推定量の基本的な要件で、サンプルを増やせば正しい値に近づくことを保証します。ただし一致性だけでは、サンプルサイズが有限のときの推定精度については何も言えません。OLS 推定量は plim(Xε/n)=0\operatorname{plim}(X'\varepsilon/n) = 0plim\operatorname{plim}確率収束の極限値を表す記号)かつ XX/nX'X/n の確率極限 Q=plim(XX/n)Q = \operatorname{plim}(X'X/n) が正則(非特異)であるとき一致性を持ちます。この条件には等分散性や誤差の無相関は含まれません(OLS の基礎)。

分布収束(convergence in distribution)

確率変数の列 XnX_n の分布が、nn \to \infty で別の分布に近づく収束概念です。XnX_n の分布関数 Fn(x)F_n(x) が極限の分布関数 F(x)F(x) の各連続点で Fn(x)F(x)F_n(x) \to F(x) を満たすとき、XndXX_n \xrightarrow{d} X と書きます。矢印の上の dd は distribution の頭文字です。

分布収束は XnX_nXX の分布の形が近づけば成立する収束概念で、XnX_n 自体の値と XX 自体の値が近いことは要求しません。確率収束XnX_nXX の値そのものの近さ(XnX|X_n - X| が確率的に小さくなる)を要求するのとは対照的です。確率収束は分布収束を含意します。逆は一般には成り立ちませんが、極限が定数の場合に限り、定数への分布収束は定数への確率収束と同値です。漸近正規性はこの概念で定義されます。

確率収束(convergence in probability)

確率変数の列 XnX_n が確率変数 XX に近づく収束概念です。任意の ε>0\varepsilon > 0 に対して

P(XnX>ε)0(n)P(|X_n - X| > \varepsilon) \to 0 \quad (n \to \infty)

が成り立つとき、XnpXX_n \xrightarrow{p} X と書きます。矢印の上の pp は probability の頭文字です。XX が定数 cc のとき、nn が大きくなるにつれて XnX_ncc から離れる確率がゼロに近づくことを意味します。推定量一致性はパラメータ θ\theta(定数)への確率収束として定義されます。plimXn=c\operatorname{plim} X_n = cXnpcX_n \xrightarrow{p} c と同じ意味で、probability limit の略です。

Delta 法(delta method)

推定量の非線形関数 g(θ^)g(\hat\theta) の分散を近似する手法です。gg を真の値 θ\theta の周りで1次テイラー展開し、

Var(g(θ^))g(θ)2Var(θ^)\operatorname{Var}(g(\hat\theta)) \approx g'(\theta)^2 \operatorname{Var}(\hat\theta)

と近似します。多変量の場合は勾配ベクトル g\nabla g と分散共分散行列 Σ\Sigma を使って gΣg\nabla g^\top \Sigma \, \nabla g です。

Delta 法は漸近正規性に依存するため、小標本では近似精度が下がります。gg の曲率が大きい領域や θ^\hat\theta の分散が大きい場合にも、線形近似の誤差が無視できなくなります。また、真の値 θ\theta において g(θ)=0g'(\theta) = 0 となる点では一次 Delta 法が退化して g(θ^)g(\hat\theta) の漸近分布は正規にならず、二次の項を含めた定式化(二次 Delta 法)が必要になります。

Fieller 法(Fieller's method)

2つのパラメータの比 ρ=β0/β1\rho = \beta_0 / \beta_1 の信頼区間を求める方法です。推定量 (β^0,β^1)(\hat\beta_0, \hat\beta_1) が二変量正規分布に従うことを利用します。

真の比が ρ\rho であるという仮説のもとでは β0ρβ1=0\beta_0 - \rho \beta_1 = 0 なので、β^0ρβ^1\hat\beta_0 - \rho \hat\beta_1 は期待値ゼロ、分散

V(ρ)=Var(β^0)2ρCov(β^0,β^1)+ρ2Var(β^1)V(\rho) = \operatorname{Var}(\hat\beta_0) - 2\rho \operatorname{Cov}(\hat\beta_0, \hat\beta_1) + \rho^2 \operatorname{Var}(\hat\beta_1)

の正規分布に従います。検定統計量 (β^0ρβ^1)2/V(ρ)(\hat\beta_0 - \rho \hat\beta_1)^2 / V(\rho)χ12\chi^2_1 分布に従うため、これが棄却限界値 ccχ12\chi^2_1 の上側 α\alpha 点)を超えない ρ\rho の集合が信頼水準 1α1 - \alpha の信頼集合です。不等式 (β^0ρβ^1)2cV(ρ)(\hat\beta_0 - \rho \hat\beta_1)^2 \le c \cdot V(\rho)ρ\rho について整理すると、二次不等式

Aρ2+Bρ+C0A \rho^2 + B \rho + C \le 0

が得られます。ここで A=β^12cVar(β^1)A = \hat\beta_1^2 - c \cdot \operatorname{Var}(\hat\beta_1)B=2(β^0β^1cCov(β^0,β^1))B = -2\bigl(\hat\beta_0 \hat\beta_1 - c \cdot \operatorname{Cov}(\hat\beta_0, \hat\beta_1)\bigr)C=β^02cVar(β^0)C = \hat\beta_0^2 - c \cdot \operatorname{Var}(\hat\beta_0) です。係数 AA の符号と判別式 D=B24ACD = B^2 - 4 A C の符号によって信頼集合の形状が変わります。

  • A>0A > 0 の場合、信頼集合は有限区間 [ρ,ρ+][\rho_-, \rho_+] になります。A>0A > 0β^12/Var(β^1)>c\hat\beta_1^2 / \operatorname{Var}(\hat\beta_1) > c と同値で、同じ cc を棄却限界値とする β^1\hat\beta_1 の Wald 検定が β1=0\beta_1 = 0 を棄却することに相当します
  • A<0A < 0 かつ D0D \ge 0 の場合、信頼集合は (,ρ][ρ+,)(-\infty, \rho_-] \cup [\rho_+, \infty) の非有界な和集合になります。β^1\hat\beta_1 の Wald 検定が β1=0\beta_1 = 0 を棄却しない状況に対応します
  • A<0A < 0 かつ D<0D < 0 の場合、信頼集合は実数全体 R\mathbb{R} になります。ρ\rho について情報が得られないことを意味します

Delta 法が g(β^0,β^1)=β^0/β^1g(\hat\beta_0, \hat\beta_1) = \hat\beta_0 / \hat\beta_1 をテイラー展開で線形近似するのに対し、Fieller 法はこの線形化を経由しません。β^1\hat\beta_1 がゼロに近い場合、Delta 法の近似は外れますが、Fieller 法ではその不確実性が信頼集合の非有界化や全実数化として現れます。推定量が正規分布に正確に従うときは厳密な信頼集合で、GLM のように漸近的にしか正規性が成り立たないときは近似になります。分散・共分散が既知のときは上記のとおり χ12\chi^2_1 を用いますが、OLS のように残差から分散を推定する場合は棄却限界値として tnp2t^2_{n-p}=F1,np= F_{1, n-p})を用いるのが本来の定式化です(Fieller, 1954)。

逸脱度(deviance)

モデルの適合度を測る指標で、飽和モデルとの対数尤度の差に基づきます:

D=2(saturatedmodel)D = 2(\ell_{\text{saturated}} - \ell_{\text{model}})

飽和モデルは各共変量パターンに個別のパラメータを割り当て、データを完全に再現するモデル(飽和モデルの残差は常にゼロ)です。共変量パターンとは説明変数の値の組み合わせが同一の観測をまとめたグループを指します。個体レベルの観測では通常パラメータ数が観測数に等しくなりますが、あらかじめ共変量パターンごとに成功回数・試行回数の形で集計されたデータではパターン数に等しくなります。上式の DD は McCullagh & Nelder の慣例では scaled deviance と呼ばれ、これに分散パラメータ ϕ\phi をかけ戻した D=ϕDD^* = \phi D が unscaled deviance(一般に「逸脱度」と呼ばれる量)です。Poisson や Binomial では ϕ=1\phi = 1 のため両者は一致します。Gaussian ファミリーでは scaled deviance が当てはめモデルの残差平方和を誤差分散 σ2\sigma^2 で正規化した値 RSSmodel/σ2\text{RSS}_\text{model}/\sigma^2 に一致し、unscaled deviance は RSSmodel\text{RSS}_\text{model} そのものです。MIDAS は unscaled 形式の逸脱度を返します。逸脱度はこの関係を任意の指数型分布族に一般化した適合度指標で、値が大きいほどモデルの適合が悪いことを示します。GLMM(Generalized Linear Mixed Model、一般化線形混合モデル)ではペナルティ付き逸脱度がパラメータ推定に使われます(GLMM の基礎)。

推定量(estimator)

データから未知のパラメータを推測するための関数です。データが確率変数である限り推定量自体も確率変数であり、標本ごとに異なる値を取ります。推定量にデータを代入して得た具体的な数値を推定値(estimate)と呼びます。

たとえば標本平均 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i は母平均 μ\mu の推定量です。推定量の良さは一致性不偏性漸近正規性などの性質で評価されます。

カーネル密度推定(kernel density estimation)

データの確率密度関数を推定するノンパラメトリックな手法です。各データ点にカーネル関数(通常はガウシアンカーネル)を配置し、それらを合算することで滑らかな密度曲線を得ます。nn 個のデータ x1,,xnx_1, \ldots, x_n に対して、推定密度は

f^(x)=1nhi=1nK ⁣(xxih)\hat{f}(x) = \frac{1}{n h} \sum_{i=1}^{n} K\!\left(\frac{x - x_i}{h}\right)

です。KK はカーネル関数、hh はバンド幅です。バンド幅はカーネル関数の広がりを制御するパラメータで、大きいほど滑らかな曲線になり、小さいほどデータの細かい構造を反映します。

ヒストグラムがビンの区切り位置に依存するのに対し、カーネル密度推定はデータから直接滑らかな分布を推定します。MIDAS では Graph Builder のヒストグラムの密度曲線(1変量)と散布図の密度等高線(2変量)にこの手法を使用しています。

1変量の場合、バンド幅は Silverman の経験則 h=0.9min(σ^,IQR/1.34)n1/5h = 0.9 \cdot \min(\hat\sigma, \mathrm{IQR}/1.34) \cdot n^{-1/5} で自動計算されます。σ^\hat\sigma は不偏分散(n1n-1 除算)の平方根です。この経験則は単峰で正規分布に近い分布を前提として導出されているため、多峰分布では過度に平滑化されてピークが潰れることがあります。ビン数を変えたヒストグラムと見比べて、密度曲線が分布の特徴を適切に捉えているか確認してください。

2変量の場合、バンド幅は Scott's rule に基づき h=n1/6σˉh = n^{-1/6} \cdot \bar\sigmaσˉ\bar\sigma は X・Y 方向の標準偏差の平均)で自動計算されます。Scott's rule は本来各軸ごとに hj=n1/6σ^jh_j = n^{-1/6} \cdot \hat\sigma_j と異なるバンド幅を使いますが、MIDAS では標準偏差の平均による等方的な単一バンド幅を採用しています。両軸のスケールが大きく異なる場合は一方の軸で過度に平滑化される可能性があります。

LOESS(局所重み付け回帰)

局所的な重み付き回帰を繰り返すことで、データの全体的なトレンドを滑らかな曲線で表現するノンパラメトリック回帰手法です。LOcally Estimated Scatterplot Smoothing の略です。

各点 x0x_0 について、近傍のデータ点に距離に応じた重みを付けて1次多項式(局所線形回帰)を当てはめ、x0x_0 での予測値を求めます。この手順をすべての点について繰り返すことで曲線全体を構成します。重み関数にはトリキューブ関数 w(u)=(1u3)3w(u) = (1 - |u|^3)^3u<1|u| < 1u1|u| \ge 1 では w(u)=0w(u) = 0)が使われます。uux0x_0 からの距離を近傍の最大距離で割った正規化値で、近傍外の点には重みが与えられません。

スパンは0から1の値を取り、各点の予測に使用するデータ点の割合を指定するパラメータです。値が大きいほど多くのデータ点を使って回帰するため、滑らかな曲線になります。MIDAS の Graph Builder では日時ヒストグラムのトレンドラインに LOESS を使用しており、スパンは0.75(全データ点の75%を近傍として使用)に固定されています。

尤度と対数尤度(likelihood / log-likelihood)

尤度は確率密度(質量)関数 f(yθ)f(y \mid \theta) と同じ数式を、θ\theta の関数として読み替えたものです。f(yθ)f(y \mid \theta)yy の関数として見れば確率密度(質量)関数、θ\theta の関数として見れば尤度関数です。1つの観測に対して L(θ)=f(yθ)L(\theta) = f(y \mid \theta)、独立な nn 個の観測に対して L(θ)=i=1nf(yiθ)L(\theta) = \prod_{i=1}^n f(y_i \mid \theta) です。

対数尤度は尤度の自然対数 (θ)=logL(θ)\ell(\theta) = \log L(\theta) です。独立な観測の尤度は積になりますが、対数を取ると和になるため数値計算で扱いやすくなります。log\log は単調増加関数なので、尤度を最大にする θ\theta と対数尤度を最大にする θ\theta は同じです。

GLM(Generalized Linear Model、一般化線形モデル)のパラメータ推定(GLM の基礎)、GLMM の Laplace 近似(GLMM の基礎)、Cox モデルの部分尤度(生存分析の基礎)はいずれも対数尤度に基づいています。

最尤推定量(maximum likelihood estimator)

尤度関数を最大化するパラメータの値 θ^ML=argmaxθL(θ;y)\hat\theta_{\text{ML}} = \arg\max_\theta L(\theta; y) です。

モデルが正しく特定されており、正則条件を満たす場合、一致性漸近正規性漸近有効性を持ちます。正則条件とは、尤度関数が十分に滑らかで、パラメータが境界上にないことなど、漸近理論の適用に必要な技術的条件の総称です。GLM では解析解が得られないため IRLS(Iteratively Reweighted Least Squares、反復再重み付け最小二乗法)で数値的に求めます(GLM の基礎)。

過分散(overdispersion)

データの分散がモデルの仮定する分散より大きい状態です。Poisson や Binomial では分布の構造から分散パラメータ ϕ=1\phi = 1 が定まり、これに基づいて標準誤差を計算します。実際の分散がこの理論的分散を超えている場合、標準誤差が過小になります。その結果、信頼区間が狭くなりすぎ、係数に対する Wald 検定や尤度比検定の偽陽性率が名目水準を超えます。Poisson で過分散が検出された場合、Negative Binomial に切り替えることで過分散を明示的にモデル化できます。Binomial の過分散への対処については GLM の基礎を参照してください。なお Binomial の試行回数が ni=1n_i = 1 の場合(Bernoulli、ロジスティック回帰)は、平均 μi\mu_i が決まれば周辺分散 μi(1μi)\mu_i(1-\mu_i) も一意に決まるため、個体レベルのデータでは Pearson χ2\chi^2 や逸脱度で過分散を検出できません。ただしクラスタ構造や繰り返し測定に由来する余剰分散は、GLMM や準尤度の枠組みで別途扱う問題として発生しうります。過分散の古典的な検出と対処が意味を持つのは試行回数が 2 以上の grouped Binomial です。

十分統計量(sufficient statistic)

パラメータ θ\theta に関するデータの情報をすべて保持する統計量です。T(X)T(X)θ\theta の十分統計量であるとは、T(X)T(X) の値が与えられたもとでのデータ XX の条件付き分布が θ\theta に依存しないことを意味します。Fisher-Neyman の分解定理により、T(X)T(X) が十分統計量である必要十分条件は同時密度(質量)関数が f(xθ)=g(T(x),θ)h(x)f(x|\theta) = g(T(x), \theta) \cdot h(x) と分解できることです。

十分統計量にデータを集約しても θ\theta の推定に必要な情報は失われません。GLM で正準リンクを使うと XyX'yβ\beta の十分統計量になり、対数尤度β\beta について凹になります。計画行列がフルランクであれば最尤推定量が一意に定まります。IRLS も通常は安定して収束します(GLM の基礎)。

不偏性(unbiasedness)

推定量の期待値が真のパラメータに一致する性質で、E[θ^]=θE[\hat\theta] = \theta と書きます。

OLS 推定量は E[εX]=0E[\varepsilon \mid X] = 0(strict exogeneity、厳密外生性)のもとで不偏です。この条件は「XX の任意の可測関数と ε\varepsilon が無相関」という意味で、単なる線形無相関 Cov(X,ε)=0\operatorname{Cov}(X, \varepsilon) = 0 よりも強い条件です。E[ε]=0E[\varepsilon] = 0(無条件の平均ゼロ)や Cov(X,ε)=0\operatorname{Cov}(X, \varepsilon) = 0 だけでは OLS の不偏性は保証されません。さらに等分散・無相関(Var(εX)=σ2I\operatorname{Var}(\varepsilon \mid X) = \sigma^2 I)を仮定すると、Gauss-Markov の定理により線形不偏推定量の中で分散が最小になります(BLUE: Best Linear Unbiased Estimator)(OLS の基礎)。最尤推定量は一般に有限標本では不偏ではありません。

分散関数(variance function)

指数型分布族において平均 μ\mu と分散の関係を規定する関数 V(μ)V(\mu) です。Var(Y)=V(μ)a(ϕ)\operatorname{Var}(Y) = V(\mu) \cdot a(\phi) が成り立ちます。V(μ)V(\mu) は対数分配関数 b(θ)b(\theta) の二階微分 b(θ)b''(\theta)μ\mu の関数として書き直したものです。

a(ϕ)a(\phi) はスケーリング係数で、ファミリーによって形が異なります。Gaussian と Gamma では a(ϕ)=ϕa(\phi) = \phi と分散パラメータ ϕ\phi そのものですが、Poisson では a(ϕ)=1a(\phi) = 1 の定数、Binomial では a(ϕ)=1/nia(\phi) = 1/n_i と各観測の試行回数 nin_i に依存します。ここでの nin_iii 番目の観測における試行回数で、サンプルサイズ(観測数)nn とは別物である点に注意してください。Poisson と Binomial では ϕ\phi11 に固定されており、ϕ\phi を介したスケーリングの余地はありません。

Poisson では V(μ)=μV(\mu) = \mu、Binomial では V(μ)=μ(1μ)V(\mu) = \mu(1-\mu)、Gamma では V(μ)=μ2V(\mu) = \mu^2 です(GLM の基礎)。

参考文献