データの準備と読み込み

ファイルを読み込む

ランチャー画面の Open File ボタンをクリックし、ファイルを選択します。サンプルデータを使う場合は、ランチャー画面の「Sample Data」セクションから選択します。詳しい手順は基本的な使い方をご覧ください。

対応しているファイル形式

MIDAS は CSV、TSV、MDS、ZIP の4種類のファイル形式に対応しています。

CSV(カンマ区切り) 最も一般的なデータ形式です。カンマ(,)で列が区切られています。ファイルの拡張子は通常 .csv です。

TSV(タブ区切り) タブ文字で列が区切られたファイルです。ファイルの拡張子は .tsv または .txt です。

MDS(MIDAS プロジェクトファイル) MIDAS で作成したプロジェクトの保存ファイルです。データセット、グラフ、レポートの状態を保存・復元できます。詳しくはプロジェクトファイル(MDS)を参照してください。

ZIP(複数 CSV/TSV ファイル) 複数の CSV または TSV ファイルを含む ZIP アーカイブです。各ファイルが個別のデータセットとしてインポートされます。

Excel 形式(.xlsx)は直接読み込めません。Excel の「名前を付けて保存」から CSV 形式で保存してください。

文字コード UTF-8、Shift-JIS、EUC-JP エンコーディングに対応しています。エンコーディングは自動検出されます。Excel で CSV を保存する場合は、「CSV UTF-8(コンマ区切り)」形式を推奨します。

ファイルの構造

MIDAS は1行目をヘッダー行として扱います。1行目の値が列名になり、2行目以降がデータになります。ヘッダー行がない CSV を読み込む場合は、Import Data ダイアログのプレビュー画面で「First row is header」チェックボックスをオフにしてください。Column1, Column2, ... という列名が自動生成され、1行目もデータとして扱われます。

ヘッダー行が空、または全セルが空白のみの場合や、ヘッダーと列数が食い違う行が含まれる場合、MIDAS はデータを silent に欠損させずエラーとしてインポートを拒否します。テキストエディタでファイルを修正してから再度インポートしてください。

例:

Name,Age,Country
Alice,25,USA
Bob,30,Japan
Charlie,28,UK

欠損値の扱い CSV の空セルは欠損値(null)として読み込まれます。"NA" や "-" などの文字列は欠損値として扱われず、そのまま文字列として読み込まれます。統計量の計算やグラフの描画では、欠損値は計算から除外されます。データセットの行自体は削除されません。

データ型と測定尺度

MIDAS は読み込んだデータの型と測定尺度を自動的に判定します。対応するデータ型(boolean, int64, float64, date, datetime, string, enum)と測定尺度の詳細はデータ型と測定尺度を参照してください。

データ型は列ヘッダーの下に int64 のように表示されます。データ型が正しく判定されなかった場合は、列の型変換で修正できます。元のデータセットは変更されず、変換結果は新しいデータセットとして作成されます。測定尺度は Data Table で列を右クリックし、Edit Scale of Measurement から変更できます。

Next steps

See also