データ解析環境について


こんにちは、株式会社クリエのIT制作部の鷹尾です。
弊社の「アクセス解析レポート」では、Google Analyticsから得たデータを統計学を用いて解析しています。今回は、統計学を含めたデータ解析環境について紹介します。

1.データ解析環境について

データを集めたり加工する段階でスクリプト言語が使われます。データ解析で使用するデータは、色々な場所にあります。サーバーからダウンロードする場合、API経由で取得する場合があります。他のツールに受け渡すために、加工が必要なデータもあります。
データ解析で使われるスクリプト言語は数種類ありますが、人気があるのは「Python」と「R」です。弊社では、汎用性の面から「Python」を採用しています。

Pythonとは

Pythonは、汎用的なプログラミング言語です。豊富なライブラリが公開されています。数値解析の分野で用いられており、データ解析関連のライブラリも充実しています。Numpy(数値計算)、pandas(データ解析)があります。データ解析以外にも、Web開発の分野でWebアプリケーションフレームワークのDjangoがあります。

Rとは

Rは、統計解析のために開発された言語であり、データ解析のライブラリが充実しています。

2.Anacondaとは


Pythonによるデータ解析で以下のライブラリが使われます。
Numpy(数値計算)
pandas(データ解析)
matplotlib(データ可視化)
以上のライブラリを使用しPythonを実行する環境として「Anaconda」が人気があります。弊社でも「Anaconda」を使用しデータ解析を行っています。

あとがき

今回、統計学を含めたデータ解析環境について紹介しました。データ解析でスクリプト言語が使われます。弊社では、汎用性の面から「Python」を採用し、ライブラリが導入されているAnacondaを採用しています。次回は、Anacondaの導入について詳しく紹介します。

まとめ

  • データ解析環境について紹介しました。
  • Jupyter Notebookについて紹介しました。

 
参考:本格的なPythonデータ解析環境を手軽に! 「Jupyter Notebook」の導入から可視化まで