Как правильно найти асимметрию и куртоз в пандах? - PullRequest
4 голосов
/ 25 июня 2019

Мне было интересно, как правильно рассчитать асимметрию и эксцесс в пандах. Панды дают некоторые значения для значений skew() и kurtosis(), но они кажутся сильно отличающимися от значений scipy.stats. Кому доверять пандам или scipy.stats?

Вот мой код:

import numpy as np
import scipy.stats as stats
import pandas as pd

np.random.seed(100)
x = np.random.normal(size=(20))

kurtosis_scipy = stats.kurtosis(x)
kurtosis_pandas = pd.DataFrame(x).kurtosis()[0]

print(kurtosis_scipy, kurtosis_pandas)
# -0.5270409758168872
# -0.31467107631025604

skew_scipy = stats.skew(x)
skew_pandas = pd.DataFrame(x).skew()[0]

print(skew_scipy, skew_pandas)
# -0.41070929017558555
# -0.44478877631598901

Версия:

print(np.__version__, pd.__version__, scipy.__version__)
1.11.0 0.20.0 0.19.0

Ответы [ 2 ]

4 голосов
/ 25 июня 2019

bias=False

print(
    stats.kurtosis(x, bias=False), pd.DataFrame(x).kurtosis()[0],
    stats.skew(x, bias=False), pd.DataFrame(x).skew()[0],
    sep='\n'
)

-0.31467107631025515
-0.31467107631025604
-0.4447887763159889
-0.444788776315989
1 голос
/ 25 июня 2019

Панды рассчитывают НЕПРЕДУСМОТНУЮ ОЦЕНКУ НАСЕЛЕНИЯ КУРТОЗА. Посмотрите в Википедии для формул: https://www.wikiwand.com/en/Kurtosis

enter image description here

Рассчитать эксцесс с нуля

import numpy as np
import pandas as pd
import scipy

x = np.array([0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0,
              2, 2, 3, 2, 5, 2, 3, 999])
k2 = x.var(ddof=1) # default numpy is biased, ddof = 0
sum_term = ((x-xbar)**4).sum()
fac1 = (n+1) * n / (n-1) / (n-2) / (n-3)
second = - 3 * (n-1) * (n-1) / (n-2) / (n-3)

first = fac1 * sum_term / k2 / k2

G2 = first + second
G2 # 19.998428728659768

Рассчитать эксцесс, используя numpy / scipy

scipy.stats.kurtosis(x,bias=False) # 19.998428728659757

Рассчитать эксцесс, используя панд

pd.DataFrame(x).kurtosis() # 19.998429

Аналогично, вы также можете рассчитать асимметрию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...