こんにちは、株式会社クリエのIT制作部の鷹尾です。
弊社の「アクセス解析レポート」では、Google Analyticsから得たデータを統計学を用いて解析しています。今回は、統計学を含めたデータ解析環境について紹介します。
1.データ解析環境について
データを集めたり加工する段階でスクリプト言語が使われます。データ解析で使用するデータは、色々な場所にあります。サーバーからダウンロードする場合、API経由で取得する場合があります。他のツールに受け渡すために、加工が必要なデータもあります。
データ解析で使われるスクリプト言語は数種類ありますが、人気があるのは「Python」と「R」です。弊社では、汎用性の面から「Python」を採用しています。
Pythonとは
Pythonは、汎用的なプログラミング言語です。豊富なライブラリが公開されています。数値解析の分野で用いられており、データ解析関連のライブラリも充実しています。Numpy(数値計算)、pandas(データ解析)があります。データ解析以外にも、Web開発の分野でWebアプリケーションフレームワークのDjangoがあります。
Rとは
Rは、統計解析のために開発された言語であり、データ解析のライブラリが充実しています。
2.Anacondaとは
Pythonによるデータ解析で以下のライブラリが使われます。
Numpy(数値計算)
pandas(データ解析)
matplotlib(データ可視化)
以上のライブラリを使用しPythonを実行する環境として「Anaconda」が人気があります。弊社でも「Anaconda」を使用しデータ解析を行っています。
あとがき
今回、統計学を含めたデータ解析環境について紹介しました。データ解析でスクリプト言語が使われます。弊社では、汎用性の面から「Python」を採用し、ライブラリが導入されているAnacondaを採用しています。次回は、Anacondaの導入について詳しく紹介します。
まとめ
- データ解析環境について紹介しました。
- Jupyter Notebookについて紹介しました。