さばくん
1次元のデータの分布を確認するときには度数分布を用いると簡単に把握することができます。
pythonを用いてヒストグラムを描画する方法も他の記事に書いているので参考にしてください。
目次
度数分布表とは観測値の取りうる値をいくつかの階級(値の範囲)に分けて、その階級内に観測値がいくつあるのか(度数)を表にしたものです。
例えば、50人のMMSEを検査したときに
[24, 28, 11, 27, 16, 26, 7, 7, 27, 23, 14, 20, 24, 2, 19, 9, 26,3, 23, 2, 8, 0, 5, 6, 25, 14, 24, 22, 17, 15, 0, 2, 17, 6,
19, 23, 18, 5, 22, 12, 14, 14, 3, 8, 13, 17, 13, 26, 24, 27]
という値が得られたとします。この値を5区切りの階級ごとに観測値がいくつあるのか、つまり度数を数えて表にすると、以下の表になります。ちなみにその階級を代表する値のことを階級値と言います。普通は階級の下限値と上限値の中間の値を取ります。
階級 | 階級値 | 度数 |
0以上5未満 | 2.5 | 7 |
5以上10未満 | 7.5 | 9 |
10以上15未満 | 12.5 | 8 |
15以上20未満 | 17.5 | 8 |
20以上25未満 | 22.5 | 10 |
25以上30以下 | 27.5 | 8 |
表を見ると大体一様に数値が分布していることが読み取れます。数値の羅列では分かりにくかった分布を簡単に把握できます。
上のような度数分布でも分かりにくいという人はグラフで可視化してみましょう。
度数分布表を可視化したグラフがヒストグラムです。ヒストグラムは横軸に階級を縦軸に度数をとったグラフです。
実際に描画したものがこれです。(離散値なのでグラフに間隔を空けている。連続値の場合は間隔を空けない)
追記:
統計に関する書籍にの度数分布の記事を読んでるとよく出てくるものに「相対度数」があります。
相対度数は全体の大きさを1とした時の各階級に属する観測値の割合のことです。
ちなみに累積度数、累積相対度数その名の通りその階級までの累積値です。
階級 | 階級値 | 頻度 | 累積度数 | 相対度数 | 累積相対度数 |
0以上5未満 | 2.5 | 7 | 7 | 0.14 | 0.14 |
5以上10未満 | 7.5 | 9 | 16 | 0.18 | 0.32 |
10以上15未満 | 12.5 | 8 | 24 | 0.16 | 0.48 |
15以上20未満 | 17.5 | 8 | 32 | 0.16 | 0.64 |
20以上25未満 | 22.5 | 10 | 42 | 0.20 | 0.84 |
25以上30以下 | 27.5 | 8 | 50 | 0.16 | 1.00 |
合計 | 50 | 1.00 |