サンプルデータセット
MIDAS には、データ分析や可視化の学習に使えるサンプルデータが含まれています。
サンプルデータの開き方
- MIDAS を開くと、ランチャー画面が表示されます
- 左サイドバーの「Sample Data」セクションから、使いたいデータセットをクリックします
- データが読み込まれ、プロジェクト画面が開きます
Palmer Penguins
南極で観測された3種類のペンギンの測定データ(344行、8列)です。
列
species: ペンギンの種類(Adelie、Chinstrap、Gentoo)island: 島の名前bill_length_mm: くちばしの長さbill_depth_mm: くちばしの深さflipper_length_mm: フリッパーの長さbody_mass_g: 体重sex: 性別year: 調査年
欠損値が一部含まれています。
データソース: https://allisonhorst.github.io/palmerpenguins/
ライセンス: CC0(パブリックドメイン)
Gapminder
1952年から2007年までの国別データ(1,704行、6列)。平均寿命、人口、GDP の推移を分析できます。
列
country: 国名continent: 大陸year: 年lifeExp: 平均寿命pop: 人口gdpPercap: 一人当たり GDP
データソース: https://www.gapminder.org/data/
ライセンス: CC BY 4.0
出典表示: "Data from Gapminder Foundation, https://www.gapminder.org/data/, CC BY 4.0"
Auto MPG
1970年から1982年の自動車燃費データ(398行、9列)です。
列
mpg: 燃費(マイル/ガロン)cylinders: シリンダー数(4、6、8)displacement: エンジン排気量(立方インチ)horsepower: 馬力weight: 車両重量(ポンド)acceleration: 加速性能(0-60mph 到達時間、秒)model_year: モデル年(70 = 1970、82 = 1982)origin: 生産国(usa、europe、japan)name: 車両モデル名
欠損値が一部含まれています。
データソース: https://archive.ics.uci.edu/dataset/9/auto+mpg
ライセンス: パブリックドメイン
World Bank
50の主要国の開発指標(50行、10列、2021-2022年データ)です。
列
country: 国名country_code: 国コードregion: 地域income_group: 所得グループpopulation_2022: 人口(2022年)gdp_usd_billions_2022: GDP(10億米ドル、2022年)gdp_per_capita_2022: 一人当たり GDP(2022年)life_expectancy_2021: 平均寿命(2021年)urban_population_percent_2022: 都市人口比率(2022年)internet_users_percent_2021: インターネット利用率(2021年)
データソース: https://data.worldbank.org/
ライセンス: CC BY 4.0
出典表示: "Data from World Bank Open Data, https://data.worldbank.org/, CC BY 4.0"
Bike Sharing
ワシントン D.C.の自転車シェアリングデータ(2011-2012年)。日次(731行)と時間次(17,379行)の2種類があります。
時間変数
instant: レコード IDdteday: 日付(YYYY-MM-DD)season: 季節(1:春、2:夏、3:秋、4:冬)yr: 年(0:2011、1:2012)mnth: 月(1-12)hr: 時刻(0-23、時間次データのみ)weekday: 曜日(0:日曜、6:土曜)holiday: 祝日フラグ(0:通常日、1:祝日)workingday: 営業日フラグ(1:平日、0:週末または祝日)
天候変数
weathersit: 天候状況- 1: 晴れ、少ない雲、部分的に曇り
- 2: 霧+曇り、霧+ちぎれ雲
- 3: 小雪、小雨+雷雨+散在雲
- 4: 大雨+氷の粒+雷雨+霧
temp: 正規化気温(摂氏温度を41で割った値)atemp: 正規化体感温度(摂氏体感温度を50で割った値)hum: 正規化湿度(湿度を100で割った値)windspeed: 正規化風速(風速を67で割った値)
利用数
casual: 非会員利用数registered: 会員利用数cnt: 総利用数(casual + registered)
過分散(分散 > 平均)が想定されるカウントデータです。
データソース: https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset
ライセンス: CC0(パブリックドメイン)
Earthquakes
2024年9月の世界中の地震データ(1,041行、7列、M4.0以上)です。
列
time: 発生日時latitude,longitude: 位置depth: 深さmag: マグニチュードplace: 発生場所
データソース: https://www.usgs.gov/programs/earthquake-hazards
ライセンス: パブリックドメイン(USGS データ)
Iris
3種類のアヤメの測定データで、古典的な分類データセットです(150行、5列)。
列
sepal_length,sepal_width: がく片のサイズpetal_length,petal_width: 花弁のサイズspecies: 種類
データソース: https://archive.ics.uci.edu/dataset/53/iris
ライセンス: パブリックドメイン
Heart Failure
心不全患者299人の臨床データ(299行、13列)です。
列
age: 年齢anaemia: 貧血の有無(0: なし、1: あり)creatinine_phosphokinase: CPK 酵素レベル(mcg/L)diabetes: 糖尿病の有無(0: なし、1: あり)ejection_fraction: 駆出率(%)high_blood_pressure: 高血圧の有無(0: なし、1: あり)platelets: 血小板数(kiloplatelets/mL)serum_creatinine: 血清クレアチニン(mg/dL)serum_sodium: 血清ナトリウム(mEq/L)sex: 性別(0: 女性、1: 男性)smoking: 喫煙の有無(0: なし、1: あり)time: 追跡期間(日数)DEATH_EVENT: 死亡イベント(0: 生存、1: 死亡)
Survival Analysis タブでtimeを時間変数、DEATH_EVENTをイベント変数として選択することで、Kaplan-Meier 生存曲線を描画できます。
データソース: https://archive.ics.uci.edu/dataset/519/heart+failure+clinical+records
ライセンス: CC BY 4.0
出典表示: "Chicco, D., Jurman, G. (2020). BMC Medical Informatics and Decision Making. https://doi.org/10.1186/s12911-020-1023-5"
Dose Response
殺虫剤の用量反応データ(8行、4列)です。
列
dose: 殺虫剤の濃度 (mg/L)exposed: 各濃度で曝露した昆虫の数(試行数)dead: 死亡した昆虫の数(成功数)mortality_rate: 死亡率(参考値)
GLM タブで Binomial ファミリーを選択し、Response format を Grouped に切り替え、dead を Successes、exposed を Trials に指定して分析できます。操作手順は Grouped Binomial GLM チュートリアル を参照してください。
データソース: 合成データ(Bliss, 1935 に着想)
Student's Sleep
t 検定の発明者 William Sealy Gosset が 1908 年に "Student" の筆名で発表したデータ(20行、3列)です。10名の被験者に2種類の催眠薬を投与し、対照群と比較した睡眠時間の増分を記録しています。
列
ID: 被験者番号(1-10)extra: 対照群との睡眠時間の差(時間)group: 投与した薬剤(Drug 1、Drug 2)
データソース: Student (1908). The Probable Error of a Mean. Biometrika, 6(1), 1-25.
ライセンス: パブリックドメイン(1908年発表)