基本統計量

Statistics タブでは、選択した列の統計情報を確認できます。

基本的な使い方 の「基本統計量を見る」セクションもご覧ください。

データ型別の統計量

列のデータ型に応じて、表示される統計情報が異なります。

数値型(int64, float64)

数値列を選択すると、以下の統計情報が表示されます。

数値列の統計表示

測定尺度と表示される統計量

数値型では、列の測定尺度(Nominal、Ordinal、Interval、Ratio)に応じて、統計的に意味のある項目のみを表示します。

統計量NominalOrdinalIntervalRatio
カテゴリ別件数(Most frequent)oo
min / maxooo
分位点(median 等)ooo
mean / stdoo
skewness / ex. kurtoo
iqr / rangeoo

たとえば、郵便番号は Nominal(名義尺度)として扱うのが適切です。名義尺度として扱うと、平均や標準偏差は表示されません。これは、名義尺度では数値の大小関係に意味がないためです。

測定尺度の変更方法については データの準備と読み込み をご覧ください。

Nominal または Ordinal 尺度の数値列では、値ごとの件数(Most frequent)が表示されます。

基本情報

列のヘッダー部分には、データ型、測定尺度、有効値数(n)、欠損値数(miss)が表示されます。

例: FLOAT64 · interval · n=150 · miss=0

Data Distribution(ヒストグラム)

データの分布を視覚的に確認できます。

  • Bin count: ヒストグラムのビン(区間)数を調整できます
  • Show density: チェックすると、ヒストグラムにカーネル密度推定の曲線を重ねて表示します

グラフ右上のボタンで操作モードを切り替えられます:

  • Pan mode: ドラッグでグラフを移動
  • Select mode: ドラッグで範囲を選択し、該当する行を選択状態にします

Moments(モーメント統計量)

  • mean: 平均値 xˉ\bar{x}
  • std: 標本標準偏差 s=1n1(xixˉ)2s = \sqrt{\frac{1}{n-1}\sum(x_i - \bar{x})^2}
  • skewness: 歪度 G1=n(n1)(n2) ⁣(xixˉs)3G_1 = \frac{n}{(n-1)(n-2)} \sum\!\left(\frac{x_i - \bar{x}}{s}\right)^3ss は上記の標本標準偏差(バイアス補正、n3n \geq 3)。0 なら左右対称、正なら右に裾が長い
  • ex. kurt: 超過尖度 G2=n(n+1)(n1)(n2)(n3) ⁣(xixˉs)43(n1)2(n2)(n3)G_2 = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum\!\left(\frac{x_i - \bar{x}}{s}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)}ss は上記の標本標準偏差(バイアス補正、n4n \geq 4)。0 なら正規分布と同程度、正なら裾が重い

比率尺度の列では、以下の統計量も表示されます:

  • cv: 変動係数 CV=s/xˉ×100\text{CV} = s / \bar{x} \times 100\\%。平均に対するばらつきの相対的な大きさを表す
  • geo mean: 幾何平均 (ixi)1/n\left(\prod_i x_i\right)^{1/n}。すべての値が正のときのみ定義される。ゼロや負値を含む列では表示されない

Spread(散布度)

  • iqr: 四分位範囲(75パーセンタイル - 25パーセンタイル)
  • range: 範囲(最大値 - 最小値)

Quantiles(分位点)

分位点は、昇順ソート済みデータ x(1)x(2)x(n)x_{(1)} \le x_{(2)} \le \ldots \le x_{(n)} に対して h=(n1)p+1h = (n-1)p + 1 を求め、Qp=x(h)+(hh)(x(h+1)x(h))Q_p = x_{(\lfloor h \rfloor)} + (h - \lfloor h \rfloor)\bigl(x_{(\lfloor h \rfloor + 1)} - x_{(\lfloor h \rfloor)}\bigr) と線形補間して計算します。データを昇順に並べたときの位置を示します:

  • 0%(min): 最小値
  • 1%, 5%, 10%: 下位パーセンタイル
  • 25%: 第1四分位点
  • 50%: 中央値
  • 75%: 第3四分位点
  • 90%, 95%, 99%: 上位パーセンタイル
  • 100%(max): 最大値

文字列型(string)と Enum 型

文字列または Enum 型の列を選択すると、以下が表示されます:

文字列列の統計表示

  • Category Distribution: カテゴリごとの件数を棒グラフで表示
  • Unique values: ユニークな値の種類数
  • Most frequent: 頻度が高い値とその件数(クリックで該当行を選択可能)

Enum 型の列の測定尺度を順序尺度に変更すると、上記の度数集計に加えて Enum 定義の位置順序に基づく min / max / median / Q1 / Q3 が計算されます。iqr / mean / std / skewness / ex. kurt は、順序尺度では等間隔や算術演算の前提が満たされないため表示しません。詳細は Enum 定義 を参照してください。

ブール型(boolean)

True/False の列を選択すると、以下が表示されます:

  • True: True の件数と割合(%)
  • False: False の件数と割合(%)

日時型(datetime)

日時の列を選択すると、以下が表示されます:

日時列の統計表示

  • Date Distribution: 時系列でのデータ分布をグラフ表示
    • Interval: 集計間隔を選択(Auto、1 minute、1 hour、1 day、1 week、1 month など)
    • Show trend: トレンドラインを表示
  • Earliest: 最も古い日時
  • Latest: 最も新しい日時
  • Time span: 期間(例:「29 days, 22 hours」)

複数列の比較(Relationships)

2つ以上の数値列(Interval または Ratio 尺度)を選択すると、Relationships セクションが表示されます。表示内容は選択した列数で変わります。

Relationships セクション

散布図マトリックス(2-4列選択時)

選択した列の組み合わせを散布図マトリックスで表示します:

  • 対角線: 各列のヒストグラム
  • 対角線以外: 列ペアの散布図

相関行列(5列以上選択時)

5列以上を選択すると、散布図マトリックスの代わりに Pearson の相関係数をヒートマップで表示します。色の強さが相関の強さを表します。

Comparison テーブル

選択した列の統計量を横に並べて比較できます。type、scale、n、miss の基本情報に加え、mean、std、skewness、ex. kurt、分位点(min〜max)、iqr、range が各列について表示されます。

グループ化機能

Show stats by ドロップダウンから列を選択すると、その列の値でデータをグループ化し、グループごとの統計量を確認できます。

使い方

  1. Statistics タブの Show stats by ドロップダウンから、グループ化に使用する列を選択(例:species
  2. 選択した列の値ごとに統計情報が表示される

活用例

Iris データセットで sepal_length 列を選択し、species でグループ化すると:

  • Iris-setosa の sepal_length の統計
  • Iris-versicolor の sepal_length の統計
  • Iris-virginica の sepal_length の統計

がそれぞれ表示され、品種間の比較ができます。

行選択との連携

Statistics タブのグラフから、データの行を選択できます。行選択の全体的な仕組みについては行の選択を参照してください。

ヒストグラムからの行選択

ヒストグラムから選択

グラフ右上のボタンで操作モードを切り替えられます:

  • Pan mode: ドラッグでグラフを移動(デフォルト)
  • Select mode: ドラッグで範囲を選択

バーをクリック: ヒストグラムのバーをクリックすると、そのビン(区間)に該当する行が選択されます。

矩形選択: Select mode を選択し、ドラッグで範囲を指定すると、その範囲内のデータが選択されます。

選択された行は Selected Rows タブで確認できます。

追加選択: Ctrl(Mac: Cmd)キーを押しながらクリックすると、既存の選択に追加できます。

散布図から選択

複数の数値列を選択すると表示される散布図マトリックスでも、同様にクリックや矩形選択で行を選択できます。

Filtered Data タブを開く

グラフ上のデータポイントやバーをダブルクリックすると、選択されたデータを表示する Filtered Data タブが自動的に開きます。