Проблема, с которой я столкнулся прямо сейчас, - это попытаться выяснить, как подогнать распределение под мои данные. У меня есть время задержки для страховых случаев, когда отсчет дней с момента поступления претензии до момента ее обработки составляет не менее 2 дней. Я пробовал различные варианты подгонки данных, наиболее успешным из которых на данный момент является подгонка Рэлея, как показано ниже
![enter image description here](https://i.stack.imgur.com/YHOou.png)
#Rayleigh fit
x = np.linspace(0, 40, 400)
data = classes['Busdays']
params =stats.rayleigh.fit(data)
plt.hist(data, bins=100, density=True)
plt.plot(x, stats.rayleigh.pdf(x, params[0], params[1]))
plt.show()
Как вы можете видеть из На графике выше нет времени задержки для времени 1, он резко увеличивается, а затем снижается с несколько экспоненциальной скоростью для остальной части графика. Я также рассматривал распределение гаммы, но вначале получаю странный всплеск для следующего кода:
![enter image description here](https://i.stack.imgur.com/1pBRF.png)
#Gamma fit
x = np.linspace(0, 40, 400)
data = classes['Busdays']
alpha, loc, scale = stats.gamma.fit(data)
plt.hist(data, bins=100, density=True)
plt.plot(x, stats.gamma.pdf(x, alpha, loc, scale))
plt.show()
Я бы предположил, что гамма Распределение могло бы лучше соответствовать этим данным, если бы распределение Рэлея выглядело достаточно хорошо, но я не уверен, почему на ранней стадии наблюдается такой всплеск гамма-распределения. Теперь мне интересно, как мне лучше всего сопоставить эти данные. Заранее спасибо