Principal Component Analysis(主成分分析)

PCA タブでは、主成分分析(Principal Component Analysis)を実行できます。PCA は多数の変数を、分散が大きい方向から順に並んだ少数の合成変数(主成分)に要約する手法です。変数間の相関構造を把握したり、データの次元を削減する用途で使います。

MIDAS の PCA は共分散行列の固有値分解に基づいて主成分を算出します。

基本的な使い方

PCA タブを開く

メニューバーから Analysis > Principal Component Analysis... を選択すると、新しい PCA タブが開きます。

変数の設定

変数の設定

Dataset で分析対象のデータセットを選択します。

Variables for PCA で主成分分析に使用する変数を選択します。数値型の列のみ選択できます。名義尺度・順序尺度の列や日付・日時型の列はグレーアウト表示され、変換が必要な旨のツールチップが表示されます。カテゴリ変数を使用する場合は Dummy Coding で事前にダミー変数に変換してください。最低2変数が必要です。

Preprocessing で前処理方法を選択します。

選択肢処理内容
Standardize (z-score)各変数から平均を引き、標準偏差で割る(デフォルト)
Center only各変数から平均を引く
None変数の変換を行わない

変数間でスケール(単位や値の範囲)が異なる場合は Standardize を選択してください。スケールが異なるまま PCA を実行すると、値の範囲が大きい変数が主成分を支配します。すべての変数が同じ単位・同程度のスケールであれば Center only や None でも構いません。

どの前処理を選んでも、共分散行列の計算と主成分得点の算出では内部でデータの平均が引かれます。None を選んだ場合も、変数のスケールは変わりませんが共分散行列は平均中心化したデータから算出されます。Standardize は標準化後のデータの共分散行列を使うため、相関行列に基づく PCA と同様の結果になります。Center only と None は元のスケールでの共分散行列を使います。

設定が完了したら Run PCA ボタンをクリックします。

結果の見方

PCA 結果

Summary(基本情報)

分析の概要を表示します。

項目説明
Samples分析に使用した行数
Features選択した変数の数
Components抽出された主成分の数(変数の数と同じ)
Skipped Rows欠損値や無効な値で除外された行数

Scree Plot(スクリープロット)

各主成分の寄与率(Variance Ratio)を折れ線グラフで表示します。横軸が主成分番号、縦軸が寄与率(%)です。

寄与率の減り方が緩やかになる「肘」の位置が、成分数を決める目安の一つです。Variance Table の累積寄与率(Cumulative)と合わせて判断してください。肘の位置は目視判断であり、明確な肘が現れない場合もあります。

Add to Report ボタンでレポートに追加できます。

Variance Table(寄与率テーブル)

各主成分の固有値と寄与率を表形式で表示します。

説明
Component主成分番号(PC1, PC2, ...)
Eigenvalue固有値(その主成分が説明する分散の量)
Variance Ratio寄与率(全固有値の和に対する割合)
Cumulative累積寄与率

Save as Dataset ボタンでデータセットとして保存できます。保存後は Data Table タブで開きます。

Principal Component Scores(主成分得点の散布図)

主成分が2つ以上ある場合に表示されます。各観測値の主成分得点を2次元の散布図にプロットします。

X 軸と Y 軸のドロップダウンで表示する主成分を切り替えられます。各選択肢には寄与率が併記されます(例: "PC1 (45.2%)")。デフォルトは X = PC1、Y = PC2 です。

Save as Dataset で全主成分の得点をデータセットとして保存できます。保存した得点は他の分析タブ(散布図、回帰分析など)の入力データとして使用できます。Add to Report でレポートに追加できます。

Component Loadings(成分負荷量)

主成分が2つ以上ある場合に表示されます。各変数が各主成分にどれだけ寄与しているかを表形式で表示します。

説明
Variable元の変数名
PC1, PC2, ...各主成分に対する負荷量

MIDAS が表示する負荷量は固有ベクトルの成分(主成分を構成する各変数の重み)です。変数と主成分の相関係数ではありません。各固有ベクトルのノルムは 1 に正規化されているため、個々の成分は -1 から 1 の範囲に収まります。負荷量の絶対値が大きい変数ほど、その主成分を強く特徴づけています。符号は主成分との正負の関係を表します。

Save as Dataset でデータセットとして保存できます。

注意事項

欠損値・無効値の自動除外

欠損値(null)、非数値、無限大を含む行は自動的に除外します。除外した行数は Summary に表示します。この除外はリストワイズ除去に該当します。変数が多い場合、1変数でも欠損があると行全体が除外されるため、使用される行数が大きく減る場合があります。除外が結果に与える影響については欠損データのメカニズムを参照してください。

固有ベクトルの符号

固有ベクトルの符号には不定性があります(vv が固有ベクトルなら v-v も固有ベクトル)。MIDAS では各主成分の負荷量のうち絶対値が最大の要素が正になるように符号を統一しています。

成分数

MIDAS は変数の数と同じ数の主成分を抽出します。成分数の自動選択は行いません。Scree Plot と Variance Table を参考に、分析の目的に応じて必要な成分数を判断してください。

See also