まずはこちらをクリック!

分布の特徴を表す値を算出する

サバくん
サバくん

1変数のデータの分布の特徴を表す値のパーセンタイル、5要約数、平均値などを算出しましょう。

前準備

パーセンタイル、5要約数を算出する前にモジュールのインポートとサンプルデータを作成します。

# import modules
import numpy as np
# sample data
arr = np.random.normal(10, 3, 50) #平均10、分散3

分布の特徴を表す値

パーセンタイルと5要約数

パーセンタイルを出力する時にはnp.percentileを使います。使い方は

np.percentile(a,q)

と入力し、aには配列、qに知りたいパーセンタイルの値を入力します。例えば、配列arrの25%パーセンタイル(第一四分位数)を知りたい場合は

np.percentile(arr,25)
# 8.19069964561844 サンプルデータを乱数にしているので、出力値は違います

となります。

また、qに0,25,50,75,100を入れれば5要約数を算出することができます。

平均値、最大値、中央値、最小値

平均値、最大値、中央値、最小値を出力するときはそれぞれnp.mean, np.max, np.median, np.minを使います。それぞれの括弧内の引数には配列を入力します。実際に使ってみましょう。

# 平均値
np.mean(arr)

# 10.16257073492667
# 最大値
np.max(arr)

# 18.53085892945912
# 中央値
np.median(arr)

# 9.767150146969707
# 最小値
np.min(arr)

# 2.201083440991588

となります。

覚えておくと便利

pandasdescribeを使うとサンプルサイズ、平均値、5要約数を一度に確認することができます。

import pandas as pd
pd.Series(arr).describe()

# count    50.000000
# mean     10.162571
# std       3.203679
# min       2.201083
# 25%       8.190700
# 50%       9.767150
# 75%      11.586690
# max      18.530859
# dtype: float64

となります!データの確認に便利ですね!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA