ブログを開始したことと、MIDASの開発経緯について
手軽に使える探索的データ分析(Exploratory Data Analysis, EDA)ソフトMIDASを公開して2ヶ月ほど経ちました。 ...が、アクセスの統計を眺めているとおそらくまだ作者しか使っていません。 元々自分が使えればよく、「あわよくば似たような人が便利に使ってくれればいいか」くらいの気持ちで始めたので、これでいいと言えばいいんですが、検索エンジンのbotすら頻繁には来てくれないので流石に寂しくなってきました。
ドキュメントを多少作ってみたものの、真面目なドキュメントを用意するのは割と気が張り労力がかかるので、お気楽なブログを始めてみます。
MIDAS開発の経緯
MIDASはM's Interactive Data Analysis Studio の略です。Mは作者の名前から取っています。
元々のモチベーションは手軽に使えるデータ分析環境がなかったことです。 複雑な統計モデリングの推定や機械学習モデルの学習は必要なく、単にCSVデータをもらったときに、その場でさっと簡単な集計と可視化をできる環境が欲しかったのです。
作者はプログラマですから、職業柄多種多様な分析の要求が飛んできます。例えば...
- 数ヶ月前から再現性のない不具合の報告が相次いでいる。どのあたりのバージョンに混入したものか当たりをつけたい。
- 御社のソフトウェアを使ったシミュレーションと実際の結果を比較したい、実際の結果を送るから見てみてくれ。
- 今期の売上の傾向、いつもと違うように見える。データみてほしい。
etc., etc, etc...。
いただく要求のほとんどは、簡単な可視化や集計であったり、それをもとに概ね妥当で説得力のある仮説をデータから構築することです。 大抵それほど時間をかけないよう期待されます。 詳細・精緻なモデルにもとづく分析は不要で、可視化と集計から妥当な仮説をさっと出すことが重要です。 そのために使えるソフトウェアというのはあまり多くありませんし、作者の要望を完全に満たすソフトウェアは存在しません。
作者が分析ソフトウェアに求める要求は以下のようなものです。
- Tukeyの探索的データ分析に適した機能を備えていること
- 比較的どのような環境でも使え、また機密データの分析に使えること
Tukeyの探索的データ分析というのは、データから仮説を立てるための、可視化と集計を中心としたデータ分析アプローチのことです。
データ分析の目的は分析依頼者の要求を満たすことです。 この要求は前述の通り、可視化と集計から妥当な仮説を短時間で導くことです。このためのアプローチがまさにTukeyの探索的データ分析ですから、最初の要求が出てきます。
さて、業務として分析を実施する場合、依頼者から提供されるデータは大抵の場合機密データです。 この要件により、分析環境に大きな制約がかかります。 まず顧客のデータを勝手にクラウドサービス上にアップロードするわけにはいきません。 また内部統制上、自由にソフトウェアをインストールできない環境にある場合もあります。 そしてまた依頼の性質上、普段使わない出張用のラップトップPCや、出先の拠点にあるPCなどで分析を実施することもあります。
そのため機密データをオフラインで分析でき、かつどのような環境でも簡単にアクセスできる必要があります。
これらの要求を同時に満足するソフトウェアは、作者が調べた限りでは存在しません。 最も近いのは探索的データ分析ソフトウェアとして高名なJMPか、大抵の環境で使用できるExcelかですが、前者は使用できる環境が限られ、後者は統計ソフトウェアとしては機能が足りません。 RやPythonといった、データ分析の分野で実績のあるプログラミング言語とそれらから使用可能なライブラリ群も考えられますが、JMPと同じくセットアップが必要で、いつでも分析に使用できるわけではありません。また適切に管理していないとバージョン間の互換性問題により使用不能になります。
こういった事情により、
- ブラウザでアクセスしさえすればインストールと初期セットアップに相当する処理が済み
- その後オフライン環境でも使用でき
- 分析データがソフトウェア提供者を含むサードパーティに送信されることのない
- 探索的データ分析のためのソフトウェア
としてMIDASを開発しています。
興味をお持ちいただけましたら、ぜひ試してみてください。 https://app.midas-app.org/ でアクセスできます。 Webサイトの形を取っていますが、全ての処理はブラウザ内で完結し、サーバにデータが送られることはありません。