Dummy Coding

Dummy Coding タブでは、カテゴリ変数（名義尺度・順序尺度）を数値のダミー変数（0/1）に変換します。回帰分析や GLM にカテゴリ変数を組み込むための前処理です。

基本的な使い方

Dummy Coding を開く

メニューバーから Data > Dummy Coding... を選択すると、新しい Dummy Coding タブが開きます。

変換を設定する

Dataset ドロップダウンで変換対象のデータセットを選択
列の設定テーブルで各列の Scale と Action、必要に応じて Reference（参照カテゴリ）を設定
Encoding Preview セクションで、各列の参照カテゴリと生成されるダミー変数の数を確認
Create Dataset をクリック
データセット名を入力して OK をクリック

Encoding Preview では、ユニーク値の数が想定どおりか、表記ゆれやタイプミスで増えていないか、参照カテゴリが意図したものかを確認します。ユニーク値が1つしかない列は変換できず、エラーが表示されます。

このページで使用するデータ

この説明では、5人のアンケートデータ（survey.csv）を使用します。blood_type と education がカテゴリ変数です。

name	age	blood_type	education
Alice	28	A	college
Bob	35	B	graduate
Carol	42	O	college
Dave	31	A	high_school
Eve	26	AB	graduate

列の設定

Scale（測定尺度）

尺度	説明	ダミー変数への変換
nominal	名義尺度	可能
ordinal	順序尺度	可能
interval	間隔尺度	不可（数値としてそのまま使用）
ratio	比率尺度	不可（数値としてそのまま使用）

順序尺度（ordinal）に設定した列でも、その順序（low → mid → high など）はダミーコーディングに使われません。ダミー変数の生成順も参照カテゴリの初期値もカテゴリ名のアルファベット順で決まります。特定のカテゴリを基準にしたい場合は Reference で選びます。

Scale の初期値は列に設定されている測定尺度です。尺度が未設定の列はデータ型から推論され、string と boolean は nominal、数値と日時は interval になります。詳細はデータ型と測定尺度を参照してください。Scale はドロップダウンで変更できます。設備番号やライン番号のように数値で記録した区分は interval と推論されますが、Scale を nominal に変更するとダミーコーディングできます。

Action（アクション）

アクション	説明
Not included	出力データセットから除外する
Include as-is	列をそのまま出力に含める
Dummy code	ダミー変数に変換する（元の列は除外）
Dummy code (keep original)	ダミー変数に変換し、元の列も保持する。出力データセットでグラフやクロス集計に元のカテゴリ列を使う場合に選ぶ

Dummy code / Dummy code (keep original) はカテゴリ変数（nominal / ordinal）にのみ選択可能です。boolean 型の列は対象外です¹。

Reference（参照カテゴリ）

参照カテゴリは、ダミー変数の係数を解釈するときの基準になるグループです。対照群や標準条件、ベースラインなど比較の基準にしたいグループを選ぶと、係数を解釈しやすくなります。

Action で Dummy code または Dummy code (keep original) を選択した列では、Reference ドロップダウンで参照カテゴリを選択できます。初期値はアルファベット順で最初のカテゴリです。

変換の仕組み

k 個のカテゴリから k-1 個のダミー変数を生成し、1つのカテゴリを参照カテゴリ（reference category）として省略します²。この方式は treatment coding（参照カテゴリを基準にした符号化）と呼ばれます。

カテゴリのユニーク値を抽出します³
アルファベット順にソートします
参照カテゴリを除外します。初期値はアルファベット順で最初のカテゴリで、Reference ドロップダウンで変更できます
残りの k-1 個のカテゴリに対してダミー変数を生成します
該当するカテゴリの行は1、それ以外は0になります

変換例

blood_type 列（ユニーク値: A, AB, B, O）を変換する場合：

参照カテゴリ: A（初期値。アルファベット順で最初）
生成されるダミー変数: blood_type_AB、blood_type_B、blood_type_O

blood_type	blood_type_AB	blood_type_B	blood_type_O
A	0	0	0
B	0	1	0
O	0	0	1
A	0	0	0
AB	1	0	0

参照カテゴリ A の行はすべてのダミー変数が0になります。

回帰モデルにダミー変数を投入すると、各ダミー変数の係数は参照カテゴリとの差の推定値です。この例では blood_type_B の係数は、B 型と参照カテゴリ A 型との応答変数の差を推定します。ほかの予測変数を含むモデルでは、それらを一定とした場合の差です。

出力データセット

上のサンプルデータで name を Not included、age を Include as-is、blood_type と education を Dummy code に設定した場合の出力です。

age	blood_type_AB	blood_type_B	blood_type_O	education_graduate	education_high_school
28	0	0	0	0	0
35	0	1	0	1	0
42	0	0	1	0	0
31	0	0	0	0	1
26	1	0	0	1	0

blood_type（4カテゴリ）から3つ、education（3カテゴリ: college, graduate, high_school、参照: college）から2つのダミー変数が生成されています。列名は {元の列名}_{カテゴリ名} の形式で、データ型は int64（0または1）、測定尺度は比率尺度です。回帰や GLM の予測変数にそのまま投入でき、再度ダミーコーディングされることはありません。行数は元のデータセットと同じです。元のデータセットは変更されず、新しい派生データセットとして保存されます。

Next steps

線形回帰分析 - ダミー変数を使用した回帰分析
一般化線形モデル（GLM） - ダミー変数を使用した GLM