統計学(最頻値)


こんにちは、株式会社クリエのIT制作部の鷹尾です。
弊社の「アクセス解析レポート」では、Google Analyticsから得たデータを統計学を用いて解析しています。今回も、統計学の各処理を紹介します。第3回目は、最頻値です。

1.最頻値とは

最頻値は、データ全体の中で1番多くある値を指します。

今回もA~Eの5名に10点満点のテストを1回行いました。この例を元に最頻値のメリットとデメリットについて説明します。

最頻値の注意

最頻値は、データ全体の中で1番多くある値を指します。そのため、最頻値は1つに決まらない場合があります。今回のテストでは、6と7が最頻値になります。

また、全ての値が1回しか現れない場合、最頻値は全ての値になります。その場合は、幅を指定して集計し、どの幅のデータ数が1番多いかを見ます。

最頻値のメリット

最頻値のメリットは、データ全体の中で1番多くある値になるので、外れ値に強い。外れ値(極端に大きい値や小さい値)は、データ全体の中で多く表れる値ではないため

最頻値のデメリット

最頻値のデメリットは、データ数が多い場合でしか使えない。どの値も1回しか出ない場合は、最頻値は意味がない。

あとがき

今回、最頻値について紹介しました。最頻値は、外れ値を除外出来るがデータが多い場合にしか使えません。これまで紹介した平均と中央値と最頻値のどれを使えばいいと思われると思います。次回は、平均・中央値・最頻値の使い分けを紹介します。

まとめ

  • 最頻値について紹介しました。
  • 最頻値のメリット・デメリットについて紹介しました。

 
参考:【基本】データの最頻値【基本】平均値・中央値・最頻値はどう使い分ける?