Это может дать вам возможность поиграть, воспользовавшись некоторыми советами Тайлера.
> claim <- c(15000000, rexp(99999, rate = 1/400)^1.76)
> summary(claim)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0 4261 20080 61730 67790 15000000
>
> hs <- 100000 # highest value to show on histogram
> br <- 10 # number of bars to show on histogram
>
> hist(claim, xlim = c(0,hs), freq = FALSE, breaks = br*max(claim)/hs, col='red')
>
> length(claim[claim<hs]) / length(claim) #proportion of claims shown
[1] 0.82267
> sum(claim[claim<hs]) / sum(claim) #proportion of value shown
[1] 0.3057994
, где hist
произвел что-то вроде
Проблема в том, что, хотя гистограмма охватывает около 82% утверждений в этих псевдоданных, она покрывает только около 31% значения утверждений. Таким образом, если только вы не хотите сказать, что большинство утверждений невелики, вы можете рассмотреть другой график.
Я предполагаю, что реальная точка зрения на ваши данные состоит в том, что, хотя большинство претензий довольно мало, большая часть затрат приходится на крупные претензии. Большие претензии не будут отображаться в гистограмме, даже если вы увеличите масштаб. Вместо этого разбейте заявки на группы различной ширины, в том числе, например, 0-1000 и 1 млн. Долларов США, и покажите точечным графиком (а), какая доля претензий попадает в каждую группу и (б) какая доля значений претензий падает в каждую группу.