サンプルデータセット

MIDAS には、データ分析や可視化の学習に使えるサンプルデータが含まれています。

ライセンスが CC BY 4.0 のデータセットは、データやその改変物を再配布・公開するときに出典表示が必要です。該当するセクションに記載した「出典表示」の文をそのまま使えます。CC0 とパブリックドメインのデータセットに出典表示の義務はありません。

サンプルデータの開き方

  1. MIDAS を開くと、ランチャー画面が表示されます
  2. 左サイドバーの「Sample Data」セクションから、使いたいデータセットをクリックします
  3. データが読み込まれ、プロジェクト画面が開きます

Palmer Penguins

南極で観測された3種類のペンギンの測定データ(344行、8列)です。

  • species: ペンギンの種類(Adelie、Chinstrap、Gentoo)
  • island: 島の名前
  • bill_length_mm: くちばしの長さ
  • bill_depth_mm: くちばしの深さ
  • flipper_length_mm: フリッパーの長さ
  • body_mass_g: 体重
  • sex: 性別
  • year: 調査年

欠損値が一部含まれています。

Graph Builder で種ごとに色分けした散布図を描いたり、Statistics タブで種ごとの統計量を比較したりできます。

データソース: https://allisonhorst.github.io/palmerpenguins/

ライセンス: CC0(パブリックドメイン)

Gapminder

1952年から2007年までの142か国のデータ(1,704行、6列、5年間隔)。平均寿命、人口、GDP の推移を分析できます。

  • country: 国名
  • continent: 大陸
  • year: 年
  • lifeExp: 平均寿命
  • pop: 人口
  • gdpPercap: 一人当たり GDP(購買力平価、2005年国際ドル)

データソース: https://www.gapminder.org/data/

ライセンス: CC BY 4.0

出典表示: "Data from Gapminder Foundation, https://www.gapminder.org/data/, CC BY 4.0"

Auto MPG

1970年から1982年の自動車燃費データ(398行、9列)です。

  • mpg: 燃費(マイル/ガロン)
  • cylinders: シリンダー数(3、4、5、6、8)
  • displacement: エンジン排気量(立方インチ)
  • horsepower: 馬力
  • weight: 車両重量(ポンド)
  • acceleration: 0-60mph の加速時間(秒)
  • model_year: モデル年(70 = 1970、82 = 1982)
  • origin: 生産国(usa、europe、japan)
  • name: 車両モデル名

欠損値が一部含まれています。

Linear Regression タブで mpg を応答変数とした回帰分析や、Statistics タブでの相関分析ができます。

データソース: https://archive.ics.uci.edu/dataset/9/auto+mpg

ライセンス: パブリックドメイン

World Bank

52の主要国の開発指標(52行、10列、2021-2022年データ)です。

  • country: 国名
  • country_code: 国コード
  • region: 地域
  • income_group: 所得グループ
  • population_2022: 人口(2022年)
  • gdp_usd_billions_2022: GDP(10億米ドル、2022年)
  • gdp_per_capita_2022: 一人当たり GDP(2022年、現在価格 USD)
  • life_expectancy_2021: 平均寿命(2021年)
  • urban_population_percent_2022: 都市人口比率(2022年)
  • internet_users_percent_2021: インターネット利用率(2021年)

Statistics タブで所得グループごとの統計量を比較したり、Graph Builder で指標間の関係を可視化したりできます。

データソース: https://data.worldbank.org/

ライセンス: CC BY 4.0

出典表示: "Data from World Bank Open Data, https://data.worldbank.org/, CC BY 4.0"

Bike Sharing

ワシントン D.C.の自転車シェアリングデータ(2011-2012年)。日次(731行)と時間次(17,379行)の2種類があり、ランチャーには「Bike Sharing (Daily)」と「Bike Sharing (Hourly)」の2つのエントリとして表示されます。

時間変数

  • instant: レコード ID
  • dteday: 日付(YYYY-MM-DD)
  • season: 季節(1:冬、2:春、3:夏、4:秋)
  • yr: 年(0:2011、1:2012)
  • mnth: 月(1-12)
  • hr: 時刻(0-23、時間次データのみ)
  • weekday: 曜日(0:日曜、6:土曜)
  • holiday: 祝日フラグ(0:通常日、1:祝日)
  • workingday: 営業日フラグ(1:平日、0:週末または祝日)

天候変数

  • weathersit: 天候状況
    • 1: 晴れ、少ない雲、部分的に曇り
    • 2: 霧+曇り、霧+ちぎれ雲
    • 3: 小雪、小雨+雷雨+散在雲
    • 4: 大雨+氷の粒+雷雨+霧
  • temp: 正規化気温(摂氏温度を41で割った値)
  • atemp: 正規化体感温度(摂氏体感温度を50で割った値)
  • hum: 正規化湿度(湿度を100で割った値)
  • windspeed: 正規化風速(最大風速67 km/h で割った値)

利用数

  • casual: 非会員利用数
  • registered: 会員利用数
  • cnt: 総利用数(casual + registered)

利用数はカウントデータで、分散が平均を上回る 過分散 が想定されます。GLM タブの Poisson 回帰で過分散の診断を学ぶ題材になります。

データソース: https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset

ライセンス: CC0(パブリックドメイン)

Earthquakes

2024年9月の世界中の地震データ(1,041行、7列、M4.0以上)です。

  • time: 発生日時
  • latitude, longitude: 位置
  • depth: 震源の深さ(km)
  • mag: マグニチュード
  • magType: マグニチュードの種類(mb: 実体波マグニチュード、mww: モーメントマグニチュード(W フェーズ) など)
  • place: 発生場所

Graph Builder の時系列プロットや日時ヒストグラムで発生頻度の推移を可視化したり、緯度・経度の散布図で発生位置を確認したりできます。

データソース: https://www.usgs.gov/programs/earthquake-hazards

ライセンス: パブリックドメイン(USGS データ)

Iris

3種類のアヤメの測定データで、古典的な分類データセットです(150行、5列)。

  • sepal_length, sepal_width: がく片のサイズ
  • petal_length, petal_width: 花弁のサイズ
  • species: 種類

Random Forest タブで species を応答変数とした分類や、Graph Builder で種ごとに色分けした散布図の作成ができます。

データソース: https://archive.ics.uci.edu/dataset/53/iris

ライセンス: パブリックドメイン

Heart Failure

心不全患者299人の臨床データ(299行、13列)です。

  • age: 年齢
  • anaemia: 貧血の有無(0: なし、1: あり)
  • creatinine_phosphokinase: CPK 酵素レベル(U/L)
  • diabetes: 糖尿病の有無(0: なし、1: あり)
  • ejection_fraction: 駆出率(%)
  • high_blood_pressure: 高血圧の有無(0: なし、1: あり)
  • platelets: 血小板数(kiloplatelets/mL)
  • serum_creatinine: 血清クレアチニン(mg/dL)
  • serum_sodium: 血清ナトリウム(mEq/L)
  • sex: 性別(0: 女性、1: 男性)
  • smoking: 喫煙の有無(0: なし、1: あり)
  • time: 追跡期間(日数)
  • DEATH_EVENT: 死亡イベント(0: 生存、1: 死亡)

Analysis メニューの Survival Analysis から Kaplan-Meier タブを開き、time を時間変数、DEATH_EVENT をイベント変数として選択することで、Kaplan-Meier 生存曲線を描画できます。操作手順は Kaplan-Meier 法による生存時間分析チュートリアル を参照してください。

データソース: https://archive.ics.uci.edu/dataset/519/heart+failure+clinical+records

ライセンス: CC BY 4.0

出典表示: "Chicco, D., & Jurman, G. (2020). Machine learning can predict survival of patients with heart failure from serum creatinine and ejection fraction alone. BMC Medical Informatics and Decision Making, 20, 16. https://doi.org/10.1186/s12911-020-1023-5"

Dose Response

殺虫剤の用量反応データ(8行、4列)です。

  • dose: 殺虫剤の濃度 (mg/L)
  • exposed: 各濃度で曝露した昆虫の数(試行数)
  • dead: 死亡した昆虫の数(成功数)
  • mortality_rate: 死亡率(dead / exposed から算出)

GLM タブで Binomial ファミリーを選択し、Response format を Grouped に切り替え、dead を Successes、exposed を Trials に指定して分析できます。操作手順は Grouped Binomial GLM チュートリアル を参照してください。

データソース: MIDAS プロジェクトが作成した合成データ

ライセンス: CC0(パブリックドメイン)

Assembly Line

自動車部品の組立ラインの寸法検査データ(300行、7列)です。3 つのライン、2 シフト、5 オペレータの組み合わせで生産された部品の寸法誤差と環境条件を記録しています。

  • line: 組立ライン(A、B、C)
  • shift: シフト(Day、Night)
  • operator: オペレータ ID(Op1 -- Op5)
  • temperature: 作業環境温度(°C)
  • humidity: 湿度(%)
  • cycle_time: サイクルタイム(秒)
  • dimension_error: 目標寸法からの誤差(mm)

ANOVA タブで line × dimension_error を分析するとライン間の差を推定でき、Linear Regression タブで環境変数を説明変数にすると寄与要因を分析できます。操作手順は組立ラインの寸法誤差分析チュートリアルを参照してください。

データソース: MIDAS プロジェクトが作成した合成データ

ライセンス: CC0(パブリックドメイン)

Injection Molding

射出成形の要因実験(DoE)を想定した合成データ(16行、4列)です。

  • Temperature: 成形温度
  • Pressure: 成形圧力
  • CycleTime: サイクルタイム
  • Strength: 成形品の強度(応答変数)

水準を組み合わせた完全要因計画として設計されており、主効果や交互作用の推定を学ぶためのデータとして利用できます。

データソース: MIDAS プロジェクトが作成した合成データ

ライセンス: CC0(パブリックドメイン)

Student's Sleep

t 分布を導出した William Sealy Gosset が 1908 年に "Student" の筆名で発表したデータ(20行、3列)です。10名の被験者それぞれに2種類の催眠薬を投与し、薬剤なしの条件と比較した睡眠時間の増分を記録しています。同一被験者が両方の薬剤を受けた対応のあるデザインです。

  • ID: 被験者番号(1-10)
  • extra: 薬剤なしの条件との睡眠時間の差(時間)
  • group: 投与した薬剤(Drug 1、Drug 2)

Statistics タブで薬剤ごとの extra の統計量を比較したり、Graph Builder で薬剤間の分布の違いを可視化したりできます。

データソース: Student (1908). The Probable Error of a Mean. Biometrika, 6(1), 1-25.

ライセンス: パブリックドメイン(1908年発表)