基本統計量

Statistics タブでは、選択した列の統計情報を確認できます。

基本的な使い方 の「基本統計量を見る」セクションもご覧ください。

データ型別の統計量

列のデータ型に応じて、表示される統計情報が異なります。

数値型(int64, float64)

数値列を選択すると、以下の統計情報が表示されます。

数値列の統計表示

測定尺度と表示される統計量

数値型では、列の測定尺度(Nominal、Ordinal、Interval、Ratio)に応じて、統計的に意味のある項目のみを表示します。

統計量NominalOrdinalIntervalRatio
mode(最頻値)oooo
カテゴリ別件数oo
min / maxooo
分位数(median, iqr 等)ooo
mean / stdoo
skewness / ex. kurtoo
rangeoo

たとえば、郵便番号は Nominal(名義尺度)として扱うのが適切です。名義尺度として扱うと、平均や標準偏差は表示されません。これは、名義尺度では数値の大小関係に意味がないためです。

測定尺度の変更方法については データの準備と読み込み をご覧ください。

基本情報

列のヘッダー部分には、データ型、測定尺度、有効値数(n)、欠損値数(miss)が表示されます。

例: FLOAT64 · interval · n=150 · miss=0

Data Distribution(ヒストグラム)

データの分布を視覚的に確認できます。

  • Bin count: ヒストグラムのビン(区間)数を調整できます
  • Show density: チェックすると、度数ではなく密度として表示します

グラフ右上のボタンで操作モードを切り替えられます:

  • Pan mode: ドラッグでグラフを移動
  • Select mode: ドラッグで範囲を選択し、該当する行を選択状態にします

Moments(モーメント統計量)

  • mean: 平均値 xˉ\bar{x}
  • std: 標準偏差 1n(xixˉ)2\sqrt{\frac{1}{n}\sum(x_i - \bar{x})^2}(母標準偏差)
  • skewness: 歪度 1n ⁣(xixˉσ)3\frac{1}{n}\sum\!\left(\frac{x_i - \bar{x}}{\sigma}\right)^3。0 なら左右対称、正なら右に裾が長い
  • ex. kurt: 超過尖度 1n ⁣(xixˉσ)43\frac{1}{n}\sum\!\left(\frac{x_i - \bar{x}}{\sigma}\right)^4 - 3。0 なら正規分布と同程度、正なら裾が重い

Spread(散布度)

  • iqr: 四分位範囲(75パーセンタイル - 25パーセンタイル)
  • range: 範囲(最大値 - 最小値)

Quantiles(分位数)

データを昇順に並べたときの位置を示します:

  • 0%(min): 最小値
  • 1%, 5%, 10%: 下位パーセンタイル
  • 25%: 第1四分位数
  • 50%: 中央値
  • 75%: 第3四分位数
  • 90%, 95%, 99%: 上位パーセンタイル
  • 100%(max): 最大値

文字列型(string)

文字列の列を選択すると、以下が表示されます:

文字列列の統計表示

  • Category Distribution: カテゴリごとの件数を棒グラフで表示
  • Unique values: ユニークな値の種類数
  • Most frequent: 頻度が高い値とその件数(クリックで該当行を選択可能)

ブール型(boolean)

True/False の列を選択すると、以下が表示されます:

  • True: True の件数と割合(%)
  • False: False の件数と割合(%)

日時型(datetime)

日時の列を選択すると、以下が表示されます:

日時列の統計表示

  • Date Distribution: 時系列でのデータ分布をグラフ表示
    • Interval: 集計間隔を選択(Auto、1 minute、1 hour、1 day、1 week、1 month など)
    • Show trend: トレンドラインを表示
  • Earliest: 最も古い日時
  • Latest: 最も新しい日時
  • Time span: 期間(例:「29 days, 22 hours」)

複数列の比較(Relationships)

2つ以上の数値列を選択すると、Relationships セクションが表示されます。表示内容は選択した列数で変わります。

Relationships セクション

散布図マトリックス(2-4列選択時)

選択した列の組み合わせを散布図マトリックスで表示します:

  • 対角線: 各列のヒストグラム
  • 対角線以外: 列ペアの散布図

相関行列(5列以上選択時)

5列以上を選択すると、散布図マトリックスの代わりに Pearson の相関係数をヒートマップで表示します。色の強さが相関の強さを表します。

Comparison テーブル

選択した列の統計量を横に並べて比較できます。mean、std、skewness、ex. kurt、分位数(min〜max)、iqr、range が各列について表示されます。比率尺度の列では変動係数(cv)と幾何平均(geo mean)も表示されます。

グループ化機能

Show stats by ドロップダウンから列を選択すると、その列の値でデータをグループ化し、グループごとの統計量を確認できます。

使い方

  1. Statistics タブの Show stats by ドロップダウンから、グループ化に使用する列を選択(例:species
  2. 選択した列の値ごとに統計情報が表示される

活用例

Iris データセットで sepal_length 列を選択し、species でグループ化すると:

  • Iris-setosa の sepal_length の統計
  • Iris-versicolor の sepal_length の統計
  • Iris-virginica の sepal_length の統計

がそれぞれ表示され、品種間の比較ができます。

行選択との連携

Statistics タブのグラフから、データの行を選択できます。

ヒストグラムからの行選択

ヒストグラムから選択

グラフ右上のボタンで操作モードを切り替えられます:

  • Pan mode: ドラッグでグラフを移動(デフォルト)
  • Select mode: ドラッグで範囲を選択

バーをクリック: ヒストグラムのバーをクリックすると、そのビン(区間)に該当する行が選択されます。

矩形選択: Select mode を選択し、ドラッグで範囲を指定すると、その範囲内のデータが選択されます。

選択された行は Selected Rows タブで確認できます。

追加選択: Ctrl(Mac: Cmd)キーを押しながらクリックすると、既存の選択に追加できます。

散布図から選択

複数の数値列を選択すると表示される散布図マトリックスでも、同様にクリックや矩形選択で行を選択できます。

Filtered Data タブを開く

グラフ上のデータポイントやバーをダブルクリックすると、選択されたデータを表示する Filtered Data タブが自動的に開きます。