サンプルデータセット

MIDAS には、データ分析や可視化の学習に使えるサンプルデータが含まれています。

サンプルデータの開き方

  1. MIDAS を開くと、ランチャー画面が表示されます
  2. 左サイドバーの「Sample Data」セクションから、使いたいデータセットをクリックします
  3. データが読み込まれ、プロジェクト画面が開きます

Palmer Penguins

南極で観測された3種類のペンギンの測定データ(344行、8列)です。

  • species: ペンギンの種類(Adelie、Chinstrap、Gentoo)
  • island: 島の名前
  • bill_length_mm: くちばしの長さ
  • bill_depth_mm: くちばしの深さ
  • flipper_length_mm: フリッパーの長さ
  • body_mass_g: 体重
  • sex: 性別
  • year: 調査年

欠損値が一部含まれています。

データソース: https://allisonhorst.github.io/palmerpenguins/

ライセンス: CC0(パブリックドメイン)

Gapminder

1952年から2007年までの国別データ(1,704行、6列)。平均寿命、人口、GDP の推移を分析できます。

  • country: 国名
  • continent: 大陸
  • year: 年
  • lifeExp: 平均寿命
  • pop: 人口
  • gdpPercap: 一人当たり GDP

データソース: https://www.gapminder.org/data/

ライセンス: CC BY 4.0

出典表示: "Data from Gapminder Foundation, https://www.gapminder.org/data/, CC BY 4.0"

Auto MPG

1970年から1982年の自動車燃費データ(398行、9列)です。

  • mpg: 燃費(マイル/ガロン)
  • cylinders: シリンダー数(4、6、8)
  • displacement: エンジン排気量(立方インチ)
  • horsepower: 馬力
  • weight: 車両重量(ポンド)
  • acceleration: 加速性能(0-60mph 到達時間、秒)
  • model_year: モデル年(70 = 1970、82 = 1982)
  • origin: 生産国(usa、europe、japan)
  • name: 車両モデル名

欠損値が一部含まれています。

データソース: https://archive.ics.uci.edu/dataset/9/auto+mpg

ライセンス: パブリックドメイン

World Bank

50の主要国の開発指標(50行、10列、2021-2022年データ)です。

  • country: 国名
  • country_code: 国コード
  • region: 地域
  • income_group: 所得グループ
  • population_2022: 人口(2022年)
  • gdp_usd_billions_2022: GDP(10億米ドル、2022年)
  • gdp_per_capita_2022: 一人当たり GDP(2022年)
  • life_expectancy_2021: 平均寿命(2021年)
  • urban_population_percent_2022: 都市人口比率(2022年)
  • internet_users_percent_2021: インターネット利用率(2021年)

データソース: https://data.worldbank.org/

ライセンス: CC BY 4.0

出典表示: "Data from World Bank Open Data, https://data.worldbank.org/, CC BY 4.0"

Bike Sharing

ワシントン D.C.の自転車シェアリングデータ(2011-2012年)。日次(731行)と時間次(17,379行)の2種類があります。

時間変数

  • instant: レコード ID
  • dteday: 日付(YYYY-MM-DD)
  • season: 季節(1:春、2:夏、3:秋、4:冬)
  • yr: 年(0:2011、1:2012)
  • mnth: 月(1-12)
  • hr: 時刻(0-23、時間次データのみ)
  • weekday: 曜日(0:日曜、6:土曜)
  • holiday: 祝日フラグ(0:通常日、1:祝日)
  • workingday: 営業日フラグ(1:平日、0:週末または祝日)

天候変数

  • weathersit: 天候状況
    • 1: 晴れ、少ない雲、部分的に曇り
    • 2: 霧+曇り、霧+ちぎれ雲
    • 3: 小雪、小雨+雷雨+散在雲
    • 4: 大雨+氷の粒+雷雨+霧
  • temp: 正規化気温(摂氏温度を41で割った値)
  • atemp: 正規化体感温度(摂氏体感温度を50で割った値)
  • hum: 正規化湿度(湿度を100で割った値)
  • windspeed: 正規化風速(風速を67で割った値)

利用数

  • casual: 非会員利用数
  • registered: 会員利用数
  • cnt: 総利用数(casual + registered)

過分散(分散 > 平均)が想定されるカウントデータです。

データソース: https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset

ライセンス: CC0(パブリックドメイン)

Earthquakes

2024年9月の世界中の地震データ(1,041行、7列、M4.0以上)です。

  • time: 発生日時
  • latitude, longitude: 位置
  • depth: 深さ
  • mag: マグニチュード
  • place: 発生場所

データソース: https://www.usgs.gov/programs/earthquake-hazards

ライセンス: パブリックドメイン(USGS データ)

Iris

3種類のアヤメの測定データで、古典的な分類データセットです(150行、5列)。

  • sepal_length, sepal_width: がく片のサイズ
  • petal_length, petal_width: 花弁のサイズ
  • species: 種類

データソース: https://archive.ics.uci.edu/dataset/53/iris

ライセンス: パブリックドメイン

Heart Failure

心不全患者299人の臨床データ(299行、13列)です。

  • age: 年齢
  • anaemia: 貧血の有無(0: なし、1: あり)
  • creatinine_phosphokinase: CPK 酵素レベル(mcg/L)
  • diabetes: 糖尿病の有無(0: なし、1: あり)
  • ejection_fraction: 駆出率(%)
  • high_blood_pressure: 高血圧の有無(0: なし、1: あり)
  • platelets: 血小板数(kiloplatelets/mL)
  • serum_creatinine: 血清クレアチニン(mg/dL)
  • serum_sodium: 血清ナトリウム(mEq/L)
  • sex: 性別(0: 女性、1: 男性)
  • smoking: 喫煙の有無(0: なし、1: あり)
  • time: 追跡期間(日数)
  • DEATH_EVENT: 死亡イベント(0: 生存、1: 死亡)

Survival Analysis タブでtimeを時間変数、DEATH_EVENTをイベント変数として選択することで、Kaplan-Meier 生存曲線を描画できます。

データソース: https://archive.ics.uci.edu/dataset/519/heart+failure+clinical+records

ライセンス: CC BY 4.0

出典表示: "Chicco, D., Jurman, G. (2020). BMC Medical Informatics and Decision Making. https://doi.org/10.1186/s12911-020-1023-5"

Dose Response

殺虫剤の用量反応データ(8行、4列)です。

  • dose: 殺虫剤の濃度 (mg/L)
  • exposed: 各濃度で曝露した昆虫の数(試行数)
  • dead: 死亡した昆虫の数(成功数)
  • mortality_rate: 死亡率(参考値)

GLM タブで Binomial ファミリーを選択し、Response format を Grouped に切り替え、dead を Successes、exposed を Trials に指定して分析できます。操作手順は Grouped Binomial GLM チュートリアル を参照してください。

データソース: 合成データ(Bliss, 1935 に着想)

Student's Sleep

t 検定の発明者 William Sealy Gosset が 1908 年に "Student" の筆名で発表したデータ(20行、3列)です。10名の被験者に2種類の催眠薬を投与し、対照群と比較した睡眠時間の増分を記録しています。

  • ID: 被験者番号(1-10)
  • extra: 対照群との睡眠時間の差(時間)
  • group: 投与した薬剤(Drug 1、Drug 2)

データソース: Student (1908). The Probable Error of a Mean. Biometrika, 6(1), 1-25.

ライセンス: パブリックドメイン(1908年発表)