データ型と測定尺度
MIDAS はデータを読み込む際にデータ型と測定尺度を自動的に推論します。測定尺度はグラフの種類や統計手法の選択に直接影響するため、正しく設定されているかを確認してください。
操作方法はデータの準備と読み込みを参照してください。
データ型
MIDAS は読み込んだデータの型を自動的に判定します。
boolean(真偽値)
true/false、1/0、yes/no、y/n などで表される真偽値です。
int64(整数)
小数点を含まない数値です(例: 1, 42, -10)。
float64(浮動小数点数)
小数点を含む数値です(例: 3.14, 0.5, -2.71)。
date(日付)
日付を表すデータです。CSV には YYYY-MM-DD 形式で記述してください(例: 2025-11-17)。読み込まれた日付はそのまま YYYY-MM-DD 形式で表示されます。YYYY/MM/DD 形式はブラウザのタイムゾーンによって前日の日付に変換されることがあります。
datetime(日時)
日付と時刻を含むデータです(例: 2025-11-17 14:30:00)。内部で UTC に変換されるため、タイムゾーンによって表示が変わります。詳細は日時データとタイムゾーンを参照してください。
string(文字列) 上記のいずれにも該当しない、テキストデータです。
enum(列挙型) 有効な値が限定されたカテゴリデータです。自動推論されないため、手動で作成します。まず Data > Enum Definitions から Enum 定義を作成し、値とその順序を設定します。次に列の型変換で string 型の列を作成した Enum に変換します。値の順序を定義できるため、順序尺度のデータに適しています。
データ型は列ヘッダーに Age (int64) のように表示されます。データ型が正しく判定されなかった場合は、列の型変換で修正できます。元のデータセットは変更されず、変換結果は新しいデータセットとして作成されます。
日時データとタイムゾーン
MIDAS は日時データを UTC で保存します。タイムゾーン情報は保持しません。
読み込み時にタイムゾーンオフセットがあれば、それをもとに UTC に変換して保存します。オフセットのない日時はブラウザのタイムゾーンとして解釈します。表示時にはブラウザのローカルタイムゾーンに変換します。
以下はブラウザのタイムゾーンが JST(+09:00)の場合の例です。
| CSV の値 | 読み込み時の解釈 | Data Table の表示 |
|---|---|---|
2025-01-15 14:30:00 | JST 14:30 として解釈 | 2025/1/15 14:30:00 |
2025-01-15T14:30:00+09:00 | JST 14:30 として解釈 | 2025/1/15 14:30:00 |
2025-01-15T14:30:00Z | UTC 14:30 として解釈 | 2025/1/15 23:30:00 |
タイムゾーン情報のない日時はブラウザのタイムゾーンとして解釈されます。同じ端末では CSV に書いたとおりの時刻が表示されますが、内部では UTC に変換されているため、異なるタイムゾーンの端末で MDS ファイルを開くと表示が変わります。タイムゾーンの一貫性が重要な場合は、CSV の日時にタイムゾーンオフセットを付けるか、UTC に統一してから読み込んでください。
測定尺度
測定尺度は「そのデータに対してどのような演算が意味を持つか」を分類する枠組みです。Stevens (1946) の4水準に基づいています。
名義尺度(Nominal)
カテゴリを表すデータで、順序に意味がありません。等しいかどうか(, )だけが意味を持ちます。
例: 性別(男性/女性)、色(赤/青/緑)、国名
MIDAS での用途:
- 棒グラフなどカテゴリ別の集計
- クロス集計(カイ二乗検定)
- Graph Builder の Color/Fill による群分け
順序尺度(Ordinal)
カテゴリに順序がありますが、間隔は定義されていません。大小関係(, )までが意味を持ちます。
例: 満足度(低い/普通/高い)、学年(1年/2年/3年)、成績(A/B/C/D)
MIDAS での用途:
- 名義尺度と同じ操作に加え、順序を考慮したグラフ表示
- enum 型で順序を定義すると、グラフの軸が指定順に並ぶ
間隔尺度(Interval)
等間隔な数値データで、差をとることに意味があります。ただし比(「何倍」)には意味がありません。ゼロ点が恣意的だからです。
例: 温度(摂氏)、年(西暦)
- 20°C と 10°C の差は 10°C という意味がある
- しかし 20°C は 10°C の「2倍暖かい」とは言えない
MIDAS での用途:
- ヒストグラム、散布図などの連続値グラフ
- 平均、標準偏差、相関係数
- 仮説検定(t 検定)
比率尺度(Ratio)
等間隔で、かつ絶対的なゼロ点を持つ数値データです。差にも比にも意味があります。
例: 身長、体重、価格、年齢
- 20kg と 10kg の差は 10kg という意味がある
- 20kg は 10kg の「2倍重い」と言える
MIDAS での用途:
- 間隔尺度と同じ操作すべて
- 変動係数(CV)と幾何平均の計算
尺度と分析手法の対応
| 分析手法 | 必要な尺度 | MIDAS の機能 |
|---|---|---|
| 度数集計 | 名義以上 | Crosstab, Statistics |
| 中央値・四分位数 | 順序以上 | Statistics |
| 平均・標準偏差 | 間隔以上 | Statistics |
| 相関係数 | 間隔以上 | Statistics(2列選択) |
| t 検定 | 間隔以上 | Hypothesis Test |
| 回帰分析 | 間隔以上 | Linear Regression, GLM |
| ヒストグラム | 間隔以上 | Graph Builder |
| 棒グラフ | 名義・順序 | Graph Builder |
| 変動係数・幾何平均 | 比率 | Statistics(Comparison) |
データ型から測定尺度への自動推論
MIDAS は読み込み時にデータ型を判定し、そこから測定尺度を自動で割り当てます。
| データ型 | 推論される尺度 | 理由 |
|---|---|---|
| boolean | 名義 | true/false は順序のないカテゴリ |
| int64 | 比率 | 整数は通常、自然なゼロ点を持つ |
| float64 | 比率 | 浮動小数点数も同様 |
| date | 間隔 | 日付の差は意味を持つが、比は通常意味がない |
| datetime | 間隔 | 同上 |
| string | 名義 | テキストはカテゴリとして扱う |
| enum | 名義 | 順序が定義されていれば順序尺度に変更可能 |
自動推論が実際のデータの意味と合わない場合があります。たとえば郵便番号は数値型として読み込まれますが、意味的には名義尺度です。5段階評価のリッカート尺度も同様に、比率尺度ではなく順序尺度として扱うのが適切です。Data Table で列を右クリックし、Edit Scale から測定尺度を変更してください。
参考文献
- Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677-680.
See also
- データの準備と読み込み - ファイル形式と読み込み手順
- 基本統計量 - 測定尺度に応じた統計量の表示