MIDAS ドキュメント
MIDAS はブラウザで動作する無料の探索的データ分析ツールです。現在はベータ版です。探索的データ分析は Tukey が提唱したデータ分析の考え方で、可視化や要約統計量、モデルの当てはめを通じてデータの構造や傾向を把握します。
CSV ファイルを読み込み、統計量の算出、グラフ作成、回帰分析などをブラウザ内で実行できます。読み込んだファイルやプロジェクトの内容が外部サーバーに送信されることはありません。利用状況の収集や「URL から開く」機能での通信、ライセンスと商用利用については プライバシーとセキュリティ を参照してください。
はじめに
- 基本的な使い方 - サンプルデータで MIDAS の基本操作を説明します
ユーザーガイド
データの準備
- データの準備と読み込み - CSV/TSV ファイルの読み込み手順
- データセット - CSV から読み込んだデータと、それを SQL などで加工した派生データの管理
- サンプルデータセット - MIDAS に含まれるサンプルデータの説明
データの探索
- Data Table - データの表示、フィルタ、ソート
- 行の選択 - タブ間で連動する行選択の仕組み
- Selected Rows - 選択した行の一覧表示と派生データセットとしての保存
- Filtered Data - グラフやクロス集計でダブルクリックした要素に対応する行の表示と絞り込み
画面構成
- ワークスペースとレイアウト管理 - 複数の分析作業を並行管理
データの加工
- 列の型変換 - データ型の変換とエラー処理
- Reshape - Wide↔Long 形式の相互変換
- Dummy Coding - カテゴリ変数のダミー変数への変換
- SQL によるデータ加工 - SQL を使ったデータの変換
- Enum 定義 - カテゴリデータ用の Enum 型の作成と管理
- Orthogonal Polynomials - 数値列からの直交多項式列の生成
データの可視化
- グラフの作成 - ヒストグラム、散布図、棒グラフ、時系列プロット、ペアプロットなどの作成
- 高度なグラフ作成 - Grammar of Graphics に基づき、複数のグラフタイプの重ね合わせやファセット分割ができます
統計分析
- 基本統計量 - 平均、標準偏差、分位点などの統計量の確認
- 分散分析(ANOVA) - 一元配置・二元配置の分散分析と Tukey HSD 事後比較
- 実験計画法(DoE) - 2水準直交表の生成と分析
- クロス集計 - カテゴリ変数の集計
- 線形回帰分析 - Linear Regression タブの使い方
- 一般化線形モデル(GLM) - ロジスティック回帰、ポアソン回帰など、応答変数が正規分布以外の分布にも対応する回帰分析
- 一般化線形混合モデル(GLMM) - グループ構造を持つデータのランダム切片モデル
- 生存分析 - Kaplan-Meier 法と Cox 回帰
- ランダムフォレスト - 分類・回帰のランダムフォレストの適合と特徴量重要度の確認
- 主成分分析(PCA) - 主成分分析によるデータの次元削減と変数間の相関構造の把握
分析結果の整理
プロジェクト管理
- プロジェクト管理 - データセット、レポート、モデルの管理
- Project Overview - リソースの一覧管理
- Project Lineage - 依存関係の可視化
- Compare Project - プロジェクト間の差分比較
- MDS ファイル - プロジェクトファイルの保存、エクスポート、署名
- ストレージ管理 - 保存済みプロジェクトの一覧・削除とストレージ使用量の確認
- 署名鍵の管理 - MDS ファイルの署名検証と信頼済み鍵の管理
リファレンス
- Custom Graph リファレンス - Geometry/Statistics 一覧
- Agent API (window.midas) - AI エージェントや外部ツールから MIDAS を操作する API
- 数値計算の精度 - NIST Statistical Reference Datasets による統計計算精度の検証手順
チュートリアル
サンプルデータを使い、分析の流れを一通り説明します。
- 組立ラインの寸法誤差分析 - ANOVA と線形回帰による探索的分析の一連のワークフロー
- 射出成形条件の最適化 - 3因子2水準の実験計画法データの分析
- Kaplan-Meier 法による生存時間分析 - 生存曲線の推定と群間比較
- 用量反応データの Grouped Binomial GLM - 集約二項データのロジスティック回帰
統計の概念
MIDAS で使われている統計手法の背景知識です。必要に応じて参照してください。
- データ型と測定尺度 - 名義・順序・間隔・比率の違いと分析への影響
- OLS の基礎 - 正規方程式、Gauss-Markov の定理、VIF
- GLM の基礎 - 指数型分布族、リンク関数、IRLS
- 生存分析の基礎 - 打ち切り、Kaplan-Meier、Cox 比例ハザードモデル
- GLMM の基礎 - ランダム効果モデル、REML、BLUP、ICC
- 数値計算の基礎 - 浮動小数点数の有効桁数、桁落ち、条件数が計算精度に与える影響
- 欠損データのメカニズム - MCAR・MAR・MNAR の定義とリストワイズ除去が前提とする仮定
- 統計用語集 - 推定量、収束概念、尤度、逸脱度などの定義
動作環境
- プライバシーとセキュリティ - データの処理場所、保存方式、外部通信、ブラウザ要件
- PWA・オフライン利用 - アプリとしてのインストールとオフライン利用
サポート
- リリースノート - 新機能・変更履歴
- 質問やバグ報告は contact@midas-app.org までご連絡ください
このページの Markdown 版もあります。