---
title: 基本統計量
description: Statistics タブの機能を説明します。データ型別の統計量表示、測定尺度に応じた統計指標の選択、相関分析、グループ別集計、ヒストグラムからの行選択などに対応しています。
---

# 基本統計量 {#basic-statistics}

Statistics タブでは、選択した列の統計情報を確認できます。

[基本的な使い方](getting-started) の「基本統計量を見る」セクションもご覧ください。

## データ型別の統計量 {#statistics-by-data-type}

列のデータ型に応じて、表示される統計情報が異なります。

### 数値型（int64, float64） {#numeric-type-int64-float64}

数値列を選択すると、以下の統計情報が表示されます。

![数値列の統計表示](../shared/images/basic-statistics-numeric.webp)

#### 測定尺度と表示される統計量 {#measurement-scales-and-displayed-statistics}

数値型では、列の測定尺度（Nominal、Ordinal、Interval、Ratio）に応じて、統計的に意味のある項目のみを表示します。

| 統計量 | Nominal | Ordinal | Interval | Ratio |
|--------|:-------:|:-------:|:--------:|:-----:|
| カテゴリ別件数（Most frequent） | o | o | | |
| min / max | | o | o | o |
| 分位点（median 等） | | o | o | o |
| mean / std | | | o | o |
| skewness / ex. kurt | | | o | o |
| iqr / range | | | o | o |

たとえば、郵便番号は **Nominal**（名義尺度）として扱うのが適切です。名義尺度として扱うと、平均や標準偏差は表示されません。これは、名義尺度では数値の大小関係に意味がないためです。

測定尺度の変更方法については [データの準備と読み込み](data-preparation) をご覧ください。

Nominal または Ordinal 尺度の数値列では、値ごとの件数（Most frequent）が表示されます。

#### 基本情報 {#basic-information}

列のヘッダー部分には、データ型、測定尺度、有効値数（n）、欠損値数（miss）が表示されます。

例: `FLOAT64 · interval · n=150 · miss=0`

#### Data Distribution（ヒストグラム） {#data-distribution-histogram}

データの分布を視覚的に確認できます。Ordinal 尺度の数値列では、ヒストグラムの代わりに値ごとの件数を棒グラフで示す **Category Distribution** が表示されます。Nominal 尺度の数値列では、ヒストグラムと **Category Distribution** の両方が表示されます。

- **Bin count**: ヒストグラムのビン（区間）数を調整できます
- **Show density**: チェックすると、ヒストグラムにカーネル密度推定の曲線を重ねて表示します

グラフ右上のボタンで操作モードを切り替えられます：

<!--
  以下の SVG アイコンは src/app/components/common/InteractionModeToggle.tsx からコピー。
  ソース側を変更した場合はここも更新すること。
-->

- <svg width="16" height="16" viewBox="0 0 16 16" fill="none" style="vertical-align: middle;"><path d="M8 1L6 3h1.5v4.5H3V6L1 8l2 2v-1.5h4.5V13H6l2 2 2-2H8.5V8.5H13V10l2-2-2-2v1.5H8.5V3H10L8 1z" fill="#666"/></svg> **Pan mode**: ドラッグでグラフを移動
- <svg width="16" height="16" viewBox="0 0 16 16" fill="none" style="vertical-align: middle;"><rect x="2" y="2" width="12" height="12" rx="1" stroke="#666" stroke-width="1.5" stroke-dasharray="3 2" fill="none"/><path d="M5 5h6v6H5z" fill="rgba(102,102,102,0.2)"/></svg> **Select mode**: ドラッグで範囲を選択し、該当する行を選択状態にします

#### Moments（モーメント統計量） {#moments}

- **mean**: 平均値 $\bar{x}$
- **std**: 標本標準偏差 $s = \sqrt{\frac{1}{n-1}\sum(x_i - \bar{x})^2}$
- **skewness**: 歪度 $G_1 = \frac{n}{(n-1)(n-2)} \sum\!\left(\frac{x_i - \bar{x}}{s}\right)^3$、$s$ は上記の標本標準偏差（バイアス補正、$n \geq 3$）。左右対称な分布では 0 になり、正なら右に裾が長く、負なら左に裾が長い傾向を示す
- **ex. kurt**: 超過尖度 $G_2 = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum\!\left(\frac{x_i - \bar{x}}{s}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)}$、$s$ は上記の標本標準偏差（バイアス補正、$n \geq 4$）。正規分布では 0 になり、正なら正規分布より外れ値が出やすく、負なら出にくい傾向を示す

比率尺度の列では、以下の統計量も表示されます:

- **cv**: 変動係数 $\text{CV} = s / \bar{x} \times 100\\%$。平均に対するばらつきの相対的な大きさを表す。平均が正のときのみ表示される（$\bar{x} \leq 0$ では未表示）
- **geo mean**: 幾何平均 $\left(\prod_i x_i\right)^{1/n}$。すべての値が正のときのみ定義される。ゼロや負値を含む列では表示されない

#### Spread（散布度） {#spread}

- **iqr**: 四分位範囲（75パーセンタイル - 25パーセンタイル）
- **range**: 範囲（最大値 - 最小値）

#### Quantiles（分位点） {#quantiles}

interval 尺度または ratio 尺度の数値列では、昇順ソート済みデータ $x_{(1)} \le x_{(2)} \le \ldots \le x_{(n)}$ に対して $h = (n-1)p + 1$ を求め、$Q_p = x_{(\lfloor h \rfloor)} + (h - \lfloor h \rfloor)\bigl(x_{(\lfloor h \rfloor + 1)} - x_{(\lfloor h \rfloor)}\bigr)$ と線形補間して計算します（R type 7）。ordinal 尺度の列（数値列・Enum 列とも）では、ソート済みデータの $\max(1, \lceil np \rceil)$ 番目の値を補間なしで返します（R type 1、$p=0$ のときは $x_{(1)}$）。結果は常にデータ中の既存の観測値です。データを昇順に並べたときの位置を示します：

- **0%(min)**: 最小値
- **1%, 5%, 10%**: 下位パーセンタイル
- **25%**: 第1四分位点
- **50%**: 中央値
- **75%**: 第3四分位点
- **90%, 95%, 99%**: 上位パーセンタイル
- **100%(max)**: 最大値

### 文字列型（string）と Enum 型 {#string-type}

文字列または Enum 型の列を選択すると、以下が表示されます：

![文字列列の統計表示](../shared/images/basic-statistics-string.webp)

- **Category Distribution**: カテゴリごとの件数を棒グラフで表示
- **Unique values**: ユニークな値の種類数
- **Most frequent**: 頻度が高い値とその件数（クリックで該当行を選択可能）

Enum 型の列の測定尺度を順序尺度に変更すると、上記の度数集計に加えて Enum 定義の位置順序に基づく min / max / median / Q1 / Q3 が計算されます。mean / std / skewness / ex. kurt は値間の距離が定義されないため計算できません。iqr（= Q3 − Q1）はカテゴリ値同士の減算を必要とするため、同様に計算しません。詳細は [Enum 定義](enum-definitions#ordinal-scale-and-graph-ordering) を参照してください。

### ブール型（boolean） {#boolean-type}

True/False の列を選択すると、以下が表示されます：

- **True**: True の件数と割合（%）
- **False**: False の件数と割合（%）

### 日時型（datetime） {#datetime-type}

日時の列を選択すると、以下が表示されます：

![日時列の統計表示](../shared/images/basic-statistics-datetime.webp)

- **Date Distribution**: 時系列でのデータ分布をグラフ表示
  - **Interval**: 集計間隔を選択（Auto、1 minute、1 hour、1 day、1 week、1 month など）
  - **Show trend**: トレンドラインを表示
- **Earliest**: 最も古い日時
- **Latest**: 最も新しい日時
- **Time span**: 期間（例：「29 days, 22 hours」）

## 複数列の比較（Relationships） {#comparing-multiple-columns-relationships}

2つ以上の列を選択すると、**Relationships** セクションが表示されます。表示内容は選択した列の数と種類で変わります。このセクションでは、Interval または Ratio 尺度の列を数値列、Nominal または Ordinal 尺度の列をカテゴリ列として扱います。

![Relationships セクション](../shared/images/basic-statistics-relationships.webp)

### 散布図マトリックス（2-4列選択時） {#scatter-plot-matrix-2-4-columns}

2〜4列を選択すると、選択列の組み合わせに応じて以下を表示します。

**すべて数値列の場合**（散布図マトリックス）:

- **対角線**: 各列のヒストグラム
- **対角線以外**: 列ペアの散布図（各セルの右上に Pearson の相関係数 $r$ を併記）

**カテゴリ列が含まれる場合**: 列のペアごとに以下を表示します。

- **数値 × 数値**: 散布図
- **カテゴリ × 数値**: カテゴリ別の数値の集計（棒グラフ）
- **カテゴリ × カテゴリ**: クロス集計（頻度の表）

### 相関行列（5列以上選択時） {#correlation-matrix-5-columns}

5列以上を選択すると、散布図マトリックスの代わりに Pearson の相関係数をヒートマップで表示します。色の強さが相関の強さを表します。相関行列を右クリックすると、レポートに追加できます。

Pearson の相関係数は2変数間の**線形**な関係の強さを $[-1, 1]$ の範囲で示す指標であり、非線形な関係（例：U 字型の関係）は捉えられない点に注意してください。また、外れ値の影響を受けやすい指標です。

### Comparison テーブル {#comparison-table}

選択した数値型（int64, float64）の列の統計量を横に並べて比較できます。type、scale、n、miss の基本情報に加え、mean、std、skewness、ex. kurt、分位点（min〜max）、iqr、range が各列について表示されます。文字列・Enum・ブール・日時型の列は Comparison テーブルには含まれず、個別の Column Statistics で確認します。Nominal / Ordinal 尺度の数値列はテーブルに含まれますが、その尺度で計算されない統計量は「-」と表示されます。

## グループ化機能 {#grouping-feature}

**Show stats by** ドロップダウンから列を選択すると、その列の値でデータをグループ化し、グループごとの統計量を確認できます。

### 使い方 {#how-to-use}

1. Statistics タブの **Show stats by** ドロップダウンから、グループ化に使用する列を選択（例：`species`）
2. 選択した列の値ごとに統計情報が表示される

### 活用例 {#usage-example}

Iris データセットで `sepal_length` 列を選択し、`species` でグループ化すると：

- Iris-setosa の sepal_length の統計
- Iris-versicolor の sepal_length の統計
- Iris-virginica の sepal_length の統計

がそれぞれ表示され、品種間の比較ができます。

## 行選択との連携 {#row-selection-integration}

Statistics タブのグラフから、データの行を選択できます。行選択の全体的な仕組みについては[行の選択](row-selection)を参照してください。

![ヒストグラムからの行選択](../shared/images/basic-statistics-histogram-selection.webp)

### ヒストグラムから選択 {#selection-from-histogram}

グラフ右上のボタンで操作モードを切り替えられます：

<!--
  以下の SVG アイコンは src/app/components/common/InteractionModeToggle.tsx からコピー。
  ソース側を変更した場合はここも更新すること。
-->

- <svg width="16" height="16" viewBox="0 0 16 16" fill="none" style="vertical-align: middle;"><path d="M8 1L6 3h1.5v4.5H3V6L1 8l2 2v-1.5h4.5V13H6l2 2 2-2H8.5V8.5H13V10l2-2-2-2v1.5H8.5V3H10L8 1z" fill="#666"/></svg> **Pan mode**: ドラッグでグラフを移動（デフォルト）
- <svg width="16" height="16" viewBox="0 0 16 16" fill="none" style="vertical-align: middle;"><rect x="2" y="2" width="12" height="12" rx="1" stroke="#666" stroke-width="1.5" stroke-dasharray="3 2" fill="none"/><path d="M5 5h6v6H5z" fill="rgba(102,102,102,0.2)"/></svg> **Select mode**: ドラッグで範囲を選択

**バーをクリック**: ヒストグラムのバーをクリックすると、そのビン（区間）に該当する行が選択されます。

**矩形選択**: Select mode を選択し、ドラッグで範囲を指定すると、その範囲内のデータが選択されます。

選択された行は [Selected Rows](selected-rows) タブで確認できます。

**追加選択**: Ctrl（Mac: Cmd）キーを押しながらクリックすると、既存の選択に追加できます。

### 散布図から選択 {#selection-from-scatter-plot}

複数の数値列を選択すると表示される散布図マトリックスでも、同様にクリックや矩形選択で行を選択できます。

### Filtered Data タブを開く {#opening-filtered-data-tab}

グラフ上のデータポイントやバーをダブルクリックすると、選択されたデータを表示する [Filtered Data](filtered-data) タブが自動的に開きます。
