サバくん
1変数のデータの分布の特徴を表す値のパーセンタイル、5要約数、平均値などを算出しましょう。
目次
パーセンタイル、5要約数を算出する前にモジュールのインポートとサンプルデータを作成します。
# import modules
import numpy as np
# sample data
arr = np.random.normal(10, 3, 50) #平均10、分散3
パーセンタイルと5要約数
パーセンタイルを出力する時にはnp.percentileを使います。使い方は
np.percentile(a,q)
と入力し、aには配列、qに知りたいパーセンタイルの値を入力します。例えば、配列arrの25%パーセンタイル(第一四分位数)を知りたい場合は
np.percentile(arr,25)
# 8.19069964561844 サンプルデータを乱数にしているので、出力値は違います
となります。
また、qに0,25,50,75,100を入れれば5要約数を算出することができます。
平均値、最大値、中央値、最小値
平均値、最大値、中央値、最小値を出力するときはそれぞれnp.mean, np.max, np.median, np.minを使います。それぞれの括弧内の引数には配列を入力します。実際に使ってみましょう。
# 平均値
np.mean(arr)
# 10.16257073492667
# 最大値
np.max(arr)
# 18.53085892945912
# 中央値
np.median(arr)
# 9.767150146969707
# 最小値
np.min(arr)
# 2.201083440991588
となります。
覚えておくと便利
pandasのdescribeを使うとサンプルサイズ、平均値、5要約数を一度に確認することができます。
import pandas as pd
pd.Series(arr).describe()
# count 50.000000
# mean 10.162571
# std 3.203679
# min 2.201083
# 25% 8.190700
# 50% 9.767150
# 75% 11.586690
# max 18.530859
# dtype: float64
となります!データの確認に便利ですね!