MIDASの基本的な使い方1 - DataTableとStatisticsによる基本統計量の確認
g
データを読み込んだら最初にやることは何でしょうか。
作者の場合、まず各列がどんなデータなのかを把握します。 数値なのかカテゴリなのか、欠損はあるか、どのくらいの範囲の値が入っているか。 これを確認しないまま分析を始めると、後になって「この列、実は半分欠損してた」などと気づいて手戻りが発生します。
Rならsummary()、Pythonならdf.describe()を叩くところです。
MIDASでは、列をクリックするだけでこれができます。
DataTableで列を選択する
CSVを読み込むとDataTableタブにデータが表示されます。 ここで列ヘッダーをクリックすると、その列が選択状態になります。
選択した状態でStatisticsタブを見ると、その列の基本統計量が表示されています。
Statisticsタブで確認できる統計量
数値型の列であれば、平均、中央値、標準偏差、四分位数などが一覧で表示されます。 ヒストグラムも自動で描画されるので、分布の形状もすぐに確認できます。
文字列型であればユニーク値の数と頻出値、日付型であれば最古・最新の日付と期間が表示されます。 要するに、その列の概要を把握するのに必要な情報が出てきます。
複数列を選択すると相関も見られる
Ctrl(Macの場合はCmd)を押しながら複数の列を選択すると、列同士の関係性も表示されます。 数値列同士であれば相関係数が出てきます。
まとめ
- DataTableで列ヘッダーをクリック
- Statisticsタブで統計量を確認
これだけです。 コードを書かずにデータの概要を把握できるのは、やはり楽です。