こんにちは、株式会社クリエのIT制作部の鷹尾です。
弊社の「アクセス解析レポート」では、Google Analyticsから得たデータを統計学を用いて解析しています。今回は、前回まで紹介した各代表値の使い分けについて紹介します。
1.平均・中央値・最頻値のまとめ
データの代表値に、平均、中央値、最頻値があります。使い方を説明する前に、各代表値について、簡単にまとめます。
平均
平均は、「全ての数値を足して、数値の個数で割ったもの」
平均のメリット
全ての値を考慮出来る。
平均のデメリット
外れ値(極端に大きい値や小さい値)があった場合、その値を含めて考慮してしまう。
中央値
中央値は、「数値を大きい(または小さい)順に並べた時の真ん中の値」
中央値のメリット
外れ値に強い。
中央値のデメリット
全ての値を考慮出来ない。
最頻値
最頻値は、「データの中で1番個数が多いもの」
最頻値のメリット
外れ値に強い。
最頻値のデメリット
データ数が多い場合にしか使えない。
2.平均・中央値・最頻値の使い分け
各代表値(平均・中央値・最頻値)の使い分けを考える必要がない場合と必要がある場合を紹介します。
使い分けを考えない場合
偏差値のようなデータが左右対称の山の形になる場合、平均も中央値も最頻値も等しくなる。この場合、平均・中央値・最頻値の使い分けを考える必要はないです。
・平均=50
・中央値=50
・最頻値=50
使い分けを考える場合
左右非対称な場合、平均・中央値・最頻値が等しくならない場合があります。この場合、平均・中央値・最頻値の使い分けを考えます。
・平均=44
・中央値=40
・最頻値=30
平均は、全ての数値を考慮しているので、外れ値があった場合に考慮してしまいます。他方、中央値と最頻値は、外れ値が含まれていても、ほとんど影響を受けないです。平均値を使わず、中央値や最頻値を使えばと考えるかもしれません。しかし、中央値は真ん中の値になるのでデータ全体の変化や比較に向かないです。
例えば、3人のテスト結果が40点、50点、60点とします。次回のテストで60点の人が100点を取っても、他の2人が同一ならば中央値は変わらないです。この場合、中央値を確認しテストの点数は変わらないと分析すると、高得点を取った人は意味がないです。また、テスト結果が50点、60点、70点とします。真ん中の人の点数が上がったため、中央値はあがります。この場合、中央値を確認しテストの点数は上がったと分析するのは間違いです。以上のように、中央値が適さない場合があります。
次に、最頻値はデータ数が多い場合にしか使えないデメリットがあります。どの数も1回しか出てこないなら、1番個数が多いものは意味がないです。データ数が少ない場合や同じ数が少ない場合は、区間を区切ってまとめる方法があります。しかし、区間をどう区切るかの問題があります。
例えば、5人のテストの点数が上の通りとします。5点刻みの場合、データが1番多い区間は、86-90です。しかし、10点刻みの場合、81-90が多くなります。区切り方によって1番多い区間が変わります。最頻値は区間をどう分けるかにより値が変わります。平均・中央値・最頻値のまとめの部分で紹介したように各代表値は、メリットとデメリットがあります。
代表値の選び方
代表値は、数の特徴を1つの数で表現するということであり、全ての数を表現するのは難しいです。念頭に置きながら、以下の図のように処理するのがいいと思われます。
あとがき
今回、平均・中央値・最頻値の使い分けを紹介しました。アクセス解析をする際、GoogleAnalytics上で平均という単語をよく見ます。統計学を知ったことにより、平均という単語を見た際外れ値に気をつけるようになりました。
まとめ
- 平均・中央値・最頻値のまとめを紹介しました。
- 平均・中央値・最頻値の使い分けを紹介しました。