データ型と測定尺度

MIDAS はデータを読み込む際にデータ型と測定尺度を自動的に推論します。測定尺度はグラフの種類や統計手法の選択に直接影響するため、正しく設定されているかを確認してください。

操作方法はデータの準備と読み込みを参照してください。

データ型

MIDAS は読み込んだデータの型を自動的に判定します。

boolean(真偽値) true/false1/0yes/noy/n などで表される真偽値です。

int64(整数) 小数点を含まない数値です(例: 1, 42, -10)。

float64(浮動小数点数) 小数点を含む数値です(例: 3.14, 0.5, -2.71)。

date(日付) 日付を表すデータです。CSV には YYYY-MM-DD 形式で記述してください(例: 2025-11-17)。読み込まれた日付はそのまま YYYY-MM-DD 形式で表示されます。YYYY/MM/DD 形式はブラウザのタイムゾーンによって前日の日付に変換されることがあります。

datetime(日時) 日付と時刻を含むデータです(例: 2025-11-17 14:30:00)。内部で UTC に変換されるため、タイムゾーンによって表示が変わります。詳細は日時データとタイムゾーンを参照してください。

string(文字列) 上記のいずれにも該当しない、テキストデータです。

enum(列挙型) 有効な値が限定されたカテゴリデータです。自動推論されないため、手動で作成します。まず Data > Enum Definitions から Enum 定義を作成し、値とその順序を設定します。次に列の型変換で string 型の列を作成した Enum に変換します。値の順序を定義できるため、順序尺度のデータに適しています。

データ型は列ヘッダーに Age (int64) のように表示されます。データ型が正しく判定されなかった場合は、列の型変換で修正できます。元のデータセットは変更されず、変換結果は新しいデータセットとして作成されます。

日時データとタイムゾーン

MIDAS は日時データを UTC で保存します。タイムゾーン情報は保持しません。

読み込み時にタイムゾーンオフセットがあれば、それをもとに UTC に変換して保存します。オフセットのない日時はブラウザのタイムゾーンとして解釈します。表示時にはブラウザのローカルタイムゾーンに変換します。

以下はブラウザのタイムゾーンが JST(+09:00)の場合の例です。

CSV の値読み込み時の解釈Data Table の表示
2025-01-15 14:30:00JST 14:30 として解釈2025/1/15 14:30:00
2025-01-15T14:30:00+09:00JST 14:30 として解釈2025/1/15 14:30:00
2025-01-15T14:30:00ZUTC 14:30 として解釈2025/1/15 23:30:00

タイムゾーン情報のない日時はブラウザのタイムゾーンとして解釈されます。同じ端末では CSV に書いたとおりの時刻が表示されますが、内部では UTC に変換されているため、異なるタイムゾーンの端末で MDS ファイルを開くと表示が変わります。タイムゾーンの一貫性が重要な場合は、CSV の日時にタイムゾーンオフセットを付けるか、UTC に統一してから読み込んでください。

測定尺度

測定尺度は「そのデータに対してどのような演算が意味を持つか」を分類する枠組みです。Stevens (1946) の4水準に基づいています。

名義尺度(Nominal)

カテゴリを表すデータで、順序に意味がありません。等しいかどうか(==, \neq)だけが意味を持ちます。

例: 性別(男性/女性)、色(赤/青/緑)、国名

MIDAS での用途:

  • 棒グラフなどカテゴリ別の集計
  • クロス集計(カイ二乗検定)
  • Graph Builder の Color/Fill による群分け

順序尺度(Ordinal)

カテゴリに順序がありますが、間隔は定義されていません。大小関係(<<, >>)までが意味を持ちます。

例: 満足度(低い/普通/高い)、学年(1年/2年/3年)、成績(A/B/C/D)

MIDAS での用途:

  • 名義尺度と同じ操作に加え、順序を考慮したグラフ表示
  • enum 型で順序を定義すると、グラフの軸が指定順に並ぶ

間隔尺度(Interval)

等間隔な数値データで、差をとることに意味があります。ただし比(「何倍」)には意味がありません。ゼロ点が恣意的だからです。

例: 温度(摂氏)、年(西暦)

  • 20°C と 10°C の差は 10°C という意味がある
  • しかし 20°C は 10°C の「2倍暖かい」とは言えない

MIDAS での用途:

  • ヒストグラム、散布図などの連続値グラフ
  • 平均、標準偏差、相関係数
  • 仮説検定(t 検定)

比率尺度(Ratio)

等間隔で、かつ絶対的なゼロ点を持つ数値データです。差にも比にも意味があります。

例: 身長、体重、価格、年齢

  • 20kg と 10kg の差は 10kg という意味がある
  • 20kg は 10kg の「2倍重い」と言える

MIDAS での用途:

  • 間隔尺度と同じ操作すべて
  • 変動係数(CV)と幾何平均の計算

尺度と分析手法の対応

分析手法必要な尺度MIDAS の機能
度数集計名義以上Crosstab, Statistics
中央値・四分位数順序以上Statistics
平均・標準偏差間隔以上Statistics
相関係数間隔以上Statistics(2列選択)
t 検定間隔以上Hypothesis Test
回帰分析間隔以上Linear Regression, GLM
ヒストグラム間隔以上Graph Builder
棒グラフ名義・順序Graph Builder
変動係数・幾何平均比率Statistics(Comparison)

データ型から測定尺度への自動推論

MIDAS は読み込み時にデータ型を判定し、そこから測定尺度を自動で割り当てます。

データ型推論される尺度理由
boolean名義true/false は順序のないカテゴリ
int64比率整数は通常、自然なゼロ点を持つ
float64比率浮動小数点数も同様
date間隔日付の差は意味を持つが、比は通常意味がない
datetime間隔同上
string名義テキストはカテゴリとして扱う
enum名義順序が定義されていれば順序尺度に変更可能

自動推論が実際のデータの意味と合わない場合があります。たとえば郵便番号は数値型として読み込まれますが、意味的には名義尺度です。5段階評価のリッカート尺度も同様に、比率尺度ではなく順序尺度として扱うのが適切です。Data Table で列を右クリックし、Edit Scale から測定尺度を変更してください。

参考文献

  • Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677-680.

See also