統計学(平均)


こんにちは、株式会社クリエのIT制作部の鷹尾です。
弊社の「アクセス解析レポート」では、Google Analyticsから得たデータを統計学を用いて解析しています。今回から、統計学の各処理を紹介します。第1回目は、平均です。

1.平均とは

数値からなるデータがある場合、データ全体の特徴を表す値を「代表値」といいます。代表値として使われる値は、以下があります。
・平均
・中央値
・最頻値
平均は、全てのデータの値を足してデータの数で割ったものです。


A~Eの5名に10点満点のテストを2回行いました。この例を元に平均のメリットとデメリットについて説明します。

平均のメリット

平均のメリットは、全てのデータの値を足してデータの数で割るので、全ての値を考慮出来る。
テストAの平均値は、(6+7+8+7+6)/5=6.8
テストBの平均値は、(8+9+10+9+8)/5=8.8
平均値からテストBの方が高得点であるということが推測出来る。

平均のデメリット

平均のデメリットは、外れ値(極端に大きい値や小さい値)があった場合、その値を含めて考慮してしまう。例えば、テストAが以下のような結果とする(以降、テストA’とする)。

テストAの平均値は、(6+7+8+7+6)/5=6.8
テストA’の平均値は、(2+10+10+10+2)/5=6.8
テストAとテストA’の平均値は、6.8で同じである。しかし、テストA’の結果を確認すると10点満点と2点の結果のみであり、代表値として「6.8」がデータ全体の特徴を表していると考えることは難しい。
以上から、外れ値がある場合に平均値は代表値と考えられません。

あとがき

今回、平均について紹介しました。以前、私は外れ値を考慮せずに平均値を取り、2つのデータ群を比較してました。しかし、平均にはデメリットがあり、外れ値を考慮しないと間違った結果を導く可能性があります。次回は、中央値について紹介します。

まとめ

  • 平均について紹介しました。
  • 平均のメリット・デメリットについて紹介しました。

 
参考:【基本】データの平均値【基本】平均値・中央値・最頻値はどう使い分ける?