生存分析

MIDAS は2つの生存分析手法に対応しています。

  • Kaplan-Meier: 生存曲線の推定と群間比較(RMST)。群ごとの生存時間の違いを視覚的に確認し、RMST で定量的に比較します
  • Cox 回帰: 共変量がハザードに与える効果の推定。複数の変数が生存時間に与える影響を同時に評価します

数理的な背景は生存分析の基礎を参照してください。

データの準備

生存分析には2つの変数が必要です。

  • 時間変数: イベント発生までの時間(数値型)
  • イベント変数: イベントが発生したかどうかを示す変数。以下の形式に対応しています:
    • int64 型: 1 = イベント発生、0 = 打ち切り
    • boolean 型: true = イベント発生、false = 打ち切り

float64 型の列はイベント変数として選択できません。0/1 を小数として保持している列は、列の型変換 で int64 に変換してください。

打ち切りの扱いについては生存分析の基礎を参照してください。MIDAS が対応する打ち切りは右打ち切りのみです。左打ち切り・区間打ち切り・競合リスクには対応していません。

Kaplan-Meier

Kaplan-Meier 法はノンパラメトリックな生存関数の推定法です(定式化)。

基本的な使い方

  1. メニューバーから Analysis > Survival Analysis > Kaplan-Meier... を選択
  2. Time Variable で時間変数を選択
  3. Event Variable でイベント変数を選択
  4. 群間比較をする場合は Group Variable でカテゴリ変数を選択
  5. Run Analysis をクリック

Kaplan-Meier フォーム設定

結果の見方

群間比較の結果(生存曲線、Summary Statistics、Number at Risk、RMST)

生存曲線

横軸に時間、縦軸に生存確率 S(t)S(t) をプロットします。ステップ関数で表示され、イベント発生時点で確率が低下します。打ち切りが発生した時点には曲線上に + マークを表示します。ステップが下がらない区間に + マークがあれば、その期間に打ち切りで対象者が減ったことを示します。各時点の信頼区間を連ねた信頼帯(デフォルト95%、pointwise)も表示されます。pointwise 信頼帯は各時点で個別に構成した区間であり、曲線全体の同時被覆を保証するものではありません。信頼区間は log 変換法で計算されます(詳細)。

信頼水準は Confidence Level 入力欄で変更できます。

Summary Statistics

説明
Group群名(Group Variable 指定時)
n観測数
Eventsイベント発生数
Median生存時間の中央値。S(t)0.5S(t) \leq 0.5 となる最初の時間です。観測期間内に到達しない場合は NR (Not Reached) と表示されます
nn% CI中央値の信頼区間。生存関数の各時点信頼区間を反転して求めます。信頼区間の境界が 0.50.5 に達しない場合は NR と表示されます

Number at Risk

各時間点でリスク集合(その時点でまだイベントを経験しておらず、打ち切られてもいない対象者の数)を表示します。

RMST(制限平均生存時間)

Kaplan-Meier 曲線の 0 から制約時点 τ\tau までの面積として算出される平均生存時間の推定値です(定式化)。群ごとの RMST とその SE・信頼区間が表示されます。

説明
Group群名
RMST制限平均生存時間の推定値
SE標準誤差(Greenwood 分散に基づく)
nn% CIRMST の信頼区間(Wald 型)
制約時点 τ\tau

RMST は τ\tau までの KM 曲線の面積なので、τ\tau の選択が結果に影響します。デフォルトでは、全群で共通に観察されている範囲の上限(各群の最大観察時間のうち最も短い値)を使います。RMST Restriction Time 入力欄で変更できます。τ\tau が最後のイベント発生時点を超える区間では、KM 曲線の最後の値が一定と仮定されて積分されます(最大観察時間以内であっても、最後のイベント以降に打ち切りのみが続く場合は同様です)。この区間が長いほど、RMST の不確実性を過小評価する可能性があります。

群間差

Group Variable を指定し群が2つ以上ある場合、全ペアの RMST 差とその信頼区間が表示されます。3群以上の場合、各ペアの信頼区間は多重性の調整を行っていません(Unadjusted)。

注意事項

  • 時間変数またはイベント変数に欠損値を含む行は自動的に除外されます(リストワイズ除去; 妥当な推定の条件は 欠損データのメカニズム を参照)。除外が発生した場合は、除外された行数が結果に "N rows excluded due to missing values." と表示されます

レポートへの追加

Add to Report ボタンで生存曲線をレポートに追加できます。

Cox 回帰

Cox 比例ハザードモデルは、共変量がハザードに与える効果を推定するセミパラメトリックモデルです(定式化と理論)。

基本的な使い方

  1. メニューバーから Analysis > Survival Analysis > Cox Regression... を選択
  2. Time Variable で時間変数を選択
  3. Event Variable でイベント変数を選択
  4. Covariates で共変量を1つ以上選択(間隔・比率尺度の数値型または boolean 型)
  5. Run Analysis をクリック

尺度が nominal または ordinal に設定された列と date/datetime 型の列は一覧でグレーアウト表示され、選択できません。3値以上のカテゴリ変数を共変量として使うには、事前に Dummy Coding で数値変換してください(boolean 型はそのまま選択できます)。

Cox 回帰フォーム設定

結果の見方

Cox Proportional Hazards Regression

Cox Proportional Hazards Regression セクション

上段の係数テーブルには共変量ごとに以下の列が表示されます。

説明
Variable変数名
Coef回帰係数 β\beta
SE標準誤差
HRハザード比 exp(β)\exp(\beta)
CIハザード比の信頼区間。列ヘッダは選択した信頼水準に応じて変わります(例: "95% CI")

ハザード比が1より大きい場合、その共変量が増えるとハザードが上昇します。1より小さい場合はハザードが低下します。詳しい解釈は生存分析の基礎を参照してください。

下段にはモデルの適合度指標が報告されます。

指標説明
Concordance IndexHarrell's C 統計量。比較可能なペアのうち、リスクスコアの順序がイベント順序と一致する割合です。0.5 が無情報、1.0 が完全な判別を意味します。括弧内は影響関数に基づく標準誤差です
AIC赤池情報量規準(2+2p-2 \ell + 2p)。\ell は部分対数尤度、pp は係数の数です。モデル比較に使います
Log Partial Likelihood部分対数尤度 (β^)\ell(\hat\beta)。AIC の基礎となる値です

Adjusted Survival Curve

調整生存曲線とベースライン累積ハザードテーブル

調整生存曲線は、指定した共変量値 XX に対する予測生存確率 S(tX)S(t|X) を表示します。ベースライン累積ハザードと推定係数から計算されます(定式化)。

各共変量に入力欄があり、初期値は標本平均です。値を変更すると、その共変量プロファイルに対する予測生存曲線が即座に更新されます。Reset to Means で初期値に戻せます。

Baseline Cumulative Hazard

調整生存曲線の下に、ベースライン累積ハザードのテーブルが各イベント時点の値を表示します。

説明
Timeイベント発生時間
At Riskリスク集合の人数
Eventsイベント発生数
H₀(t)累積ベースラインハザード
S₀(t)ベースライン生存関数 exp(H0(t))\exp(-H_0(t))

ベースラインは全共変量がゼロの状態に対応します。変数のスケールによってはゼロが非現実的な場合があるため、その場合は調整生存曲線で標本平均などの現実的な共変量値を指定して S(tX)S(t|X) を確認するのが実用的です。

比例ハザード仮定の診断

比例ハザード仮定の診断(相関テーブル、Schoenfeld 残差プロット、Log-Log プロット)

係数テーブルと適合度指標の下に、比例ハザード仮定の診断結果が表示されます。Cox モデルは共変量の効果が時間によらず一定であること、すなわち比例ハザード仮定を前提としています(詳細)。この仮定が崩れると、β\beta は時間を通じた加重平均としてしか解釈できなくなります。

Proportional Hazards Diagnostics

スケーリング済み Schoenfeld 残差と時間の相関を共変量ごとに表示します(Grambsch & Therneau, 1994)。時間変換として KM 変換 g(t)=1S^(t)g(t) = 1 - \hat{S}(t^-) を使用します。

説明
Variable変数名
rhoスケーリング済み Schoenfeld 残差と Kaplan-Meier 推定に基づく時間変換値の Pearson 相関係数。0 に近いほど仮定と整合的です

rho の絶対値が大きい共変量は、効果が時間とともに変化している可能性があります。rho だけでは逸脱の程度やパターンは分からないため、下の Schoenfeld 残差プロットと合わせて判断してください。MIDAS は rho とプロットによる視覚的な判断を採用しており、検定統計量や p 値は表示しません。

Scaled Schoenfeld Residuals

共変量ごとに、スケーリング済み Schoenfeld 残差を時間に対してプロットします。赤い曲線は LOESS による局所回帰線、灰色の破線は推定された係数 β^\hat\beta です。比例ハザード仮定が成り立つ場合、残差は β^\hat\beta の周りにランダムに散らばり、LOESS 線は水平に近くなります。LOESS 線が右上がりや右下がりの傾向を示す場合、その共変量の効果が時間とともに変化していることを示します。

Log-Log Survival Plot

群別の Kaplan-Meier 推定値を log(log(S^(t)))\log(-\log(\hat{S}(t)))log(t)\log(t) にプロットします。Grouping Variable ドロップダウンでグルーピングに使う共変量を選択してください。選択した共変量の異なる値が5個以下の場合は値ごとに群を作ります。6個以上の場合は中央値で2群に分割します。中央値による分割は便宜的なもので、連続変数の情報を一部失うほか、元の連続変数としての非比例性を見逃す(または逆に強調する)ことがあります。連続変数の比例ハザード仮定の診断には、上の Schoenfeld 残差プロットの方が適しています。比例ハザード仮定の下では曲線は近似的に平行になります。曲線が交差する、または時間の経過とともに曲線間の距離が広がったり縮まったりする場合は仮定の違反を示唆します。

上記の診断から比例ハザード仮定の違反が疑われる場合、層別 Cox モデルや時間依存共変量モデルで対処できますが、MIDAS は現在これらに対応していません。違反の程度と分析目的を踏まえて結果の解釈に注意してください。単一のカテゴリ変数による群間比較が目的であれば、比例ハザード仮定を前提としない Kaplan-MeierRMST による比較が代替になります。ただし共変量の調整はできません。

注意事項

  • 同着イベント(同じ時間に複数のイベント)の処理には Efron 法を使用します(詳細
  • 収束しなかった場合、結果(Convergence: No)として表示されます。係数推定値が不安定な可能性があるため、共変量の数を減らす・共変量のスケールを揃えるなどの対応を検討してください
  • 時間変数、イベント変数、共変量のいずれかに欠損値を含む行は自動的に除外されます(リストワイズ除去; 妥当な推定の条件は 欠損データのメカニズム を参照)。除外が発生した場合は、除外された行数が結果に "N rows excluded due to missing values." と表示されます

See also

参考文献

  • Grambsch, P. M. and Therneau, T. M. (1994). Proportional hazards tests and diagnostics based on weighted residuals. Biometrika, 81(3), 515--526. https://www.jstor.org/stable/2337123