平均値と中央値

研究雑学

どうも、管理人のハル(@haru_reha)です。今回は「平均値」と「中央値」の違い・使い分けについて説明します。

スポンサーリンク

平均値と中央値の定義

平均値と中央値はどちらも連続変数の代表値として使用される値ですが、どちらを使えば良いのか分からない、という方もおられるのではないでしょうか。

 

まず定義から確認しておきましょう。

平均値:観測値の総和を観測値の個数で割った値
中央値:データを小さい順に並べたとき中央に位置する値

参考 Wikipedia

平均値の特徴

平均値は馴染みが深いので比較的理解しやすいと思います。

 

平均値は観測値の総和を用いるので、全ての値が反映されます。つまり、どれか1つの値が変化するだけでも平均値は変化します。ですので、平均値はデータの変化を比較する時などには使いやすい値となります。

 

一方で外れ値に影響を受けやすいというデメリットもあります。

 

例えばA、B、C、D、Eさんの収入の平均値を求める場合を想定してみましょう。A~Dさんは収入が300万円、Eさんが1800万だとします。そうすると平均値は(300+300+300+300+1800)/5=600万円となります。

 

5人中4人は収入300万円ですが、Eさん一人の高い収入によって平均値が引っ張られている状態ですね。このように、大きく外れた値が混じっている場合、平均値はうまく現実を表せない場合があります。

 

よって、平均値は基本的には正規分布に従っているデータに対して用いられることが一般的です。学会や論文では平均○○±SDという表記をされ、グラフでは棒グラフで表されます。

中央値の特徴

次に中央値をみてみましょうか。中央値というのは「データを小さい順に並べた時に中央に位置する値」でした。

 

先程のA~Eさんの収入の例で考えてみましょう。5人を並べたときに真ん中に来る値ですので、中央値は300万円ということになります。

 

中央値は外れ値に影響を受けにくいという特徴があります。A~Eさんは5人中4人は収入300万円ですので、中央値300万円というのは現実をうまく反映していると言えますよね。

 

このように、中央値は大きく外れた値の影響を受けにくいので、正規分布に従わないデータの代表値として使われることが多いです。学会や論文では中央値〇(最小値-最大値)や、中央値〇(第1四分位点-第3四分位点)などの表記をされ、グラフは棒グラフではなく箱ひげ図というもので表されます。

 

箱ひげ図の見方や、中央値を比較する検定であるMann-Whitney U を行う方法については↓をご覧ください。

其の11が読みたい方はこちら

 

一方で、中央値にもやはりデメリットがあります。それは値の小さな変動に対する反応性が低いということです。

 

例えばAさんの収入が800万円に増えたとしても、中央値は300万円のままです。

 

平均値では(800+300+300+300+1800)/5=700万円となりますので、一人の値が変動するだけでも値が敏感に変動します。よって中央値はデータの比較にはあまり向かないと言えますね。

まとめ

このように平均値と中央値にはそれぞれメリット・デメリットがあることが分かりました。基本的には、正規分布に従うデータは平均値で、正規分布に従わないデータは中央値で表すのが一般的です。研究のデータを解析する際や、人の研究発表を聞く際には、平均値と中央値の特徴をよく理解しておくことが大事かと思います。

 

本記事をお読み頂きありがとうございました。当ブログではシロート統計学講座という初心者向けの統計学講座を公開しています。初心者が基本的な統計解析を行えるようになるまでの道筋を分かりやすく説明していますので、興味のある方はぜひ覗いてみてくださいね。>>>シロート統計学講座TOP

コメント