У меня огромный набор данных с 271116 строками данных. Я нормализовал данные, используя метод нормализации z-показателя. Я понятия не имею, знают ли данные на самом деле нормальное распределение. Поэтому я построил простой график плотности с помощью matplotlib:
hdf = df['Height'].plot(kind = 'kde', stacked = False)
plt.show()
Я получил это за результат:
Несмотря на то, что данные кажутся несколько нормальными, могу ли я применить Центральную предельную теорему, в которой я беру средства различных случайных выборок (скажем, 10000 раз), чтобы получить гладкую кривую колокола?
Любая помощь в Python приветствуется, спасибо.