Фактические и ожидаемые различия для Tweedie в R
Я пытаюсь реализовать распределение Tweedie в наборе данных 'dataCar' из библиотеки insuranceData в R. Я взял все переменные и моделировал Среднее значение серьезности (= Стоимость заявки /Количество претензий).Но фактическая серьезность весьма отличается от предсказанной.Я использовал GLM и семейство твидов для его реализации.Я использовал питание, а также функцию связи журнала.
out_2_vb <- tweedie.profile(
severity~veh_value+veh_age+gender+area+agecat
,p.vec=seq(1.0, 2.0, by=0.1) ,data=modified_data_5_vb)
tweedie_model_2_vb<-glm(severity~veh_value+veh_age+gender+area+agecat,
family=tweedie(var.power=1.4,link.power=-0.4),
data=modified_data_5_vb )
modified_data_5_predicted_vb<-
cbind(test1_initialdata_vb,pred_link_vb,pred_response_vb,pred_terms_vb)
Фактическая серьезность в основном равнялась 0, поскольку для большинства политик было 0 заявок.Но предсказанная серьезность не имела нулей и отличалась от фактических.Хотя моя прогнозируемая средняя степень тяжести составила 53, а фактическая средняя степень тяжести (за исключением наблюдений выше 99 процентилей) оказалась равной 46.
Что мне следует делать дальше с моей стороны?Как мне попытаться улучшить модель?