Подгонка искаженных данных в Python - PullRequest
0 голосов
/ 20 июня 2020

Проблема, с которой я столкнулся прямо сейчас, - это попытаться выяснить, как подогнать распределение под мои данные. У меня есть время задержки для страховых случаев, когда отсчет дней с момента поступления претензии до момента ее обработки составляет не менее 2 дней. Я пробовал различные варианты подгонки данных, наиболее успешным из которых на данный момент является подгонка Рэлея, как показано ниже

enter image description here

#Rayleigh fit
x = np.linspace(0, 40, 400)
data = classes['Busdays']
params =stats.rayleigh.fit(data)

plt.hist(data, bins=100, density=True)
plt.plot(x, stats.rayleigh.pdf(x, params[0], params[1]))
plt.show()

Как вы можете видеть из На графике выше нет времени задержки для времени 1, он резко увеличивается, а затем снижается с несколько экспоненциальной скоростью для остальной части графика. Я также рассматривал распределение гаммы, но вначале получаю странный всплеск для следующего кода:

enter image description here

#Gamma fit
x = np.linspace(0, 40, 400)
data = classes['Busdays']
alpha, loc, scale = stats.gamma.fit(data)

plt.hist(data, bins=100, density=True)
plt.plot(x, stats.gamma.pdf(x, alpha, loc, scale))
plt.show()

Я бы предположил, что гамма Распределение могло бы лучше соответствовать этим данным, если бы распределение Рэлея выглядело достаточно хорошо, но я не уверен, почему на ранней стадии наблюдается такой всплеск гамма-распределения. Теперь мне интересно, как мне лучше всего сопоставить эти данные. Заранее спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...