В следующем примере из документации по пакету "Scorecard" все переменные являются binned.Тем не менее, если я посмотрю на предложенное группирование для «age.in.years», показатель по умолчанию в зависимости от возраста следует шаблону американских горок (вы можете посмотреть график или столбец «badprob»).Можем ли мы наложить условие на снижение скорости дефолта (увеличение веса доказательств) с увеличением возраста, что максимизирует информационную ценность биннинга?Есть идеи?
Большое спасибо
library(scorecard)
# data preparing ------
# load germancredit data
data("germancredit")
# filter variable via missing rate, iv, identical value rate
dt_f = var_filter(germancredit, y="creditability")
# breaking dt into train and test
dt_list = split_df(dt_f, y="creditability", ratio = 0.6, seed = 30)
label_list = lapply(dt_list, function(x) x$creditability)
# woe binning ------
bins = woebin(dt_f, y="creditability")
> bins$age.in.years
variable bin count count_distr good bad badprob woe
1: age.in.years [-Inf,26) 190 0.190 110 80 0.4210526 0.5288441
2: age.in.years [26,28) 101 0.101 74 27 0.2673267 -0.1609304
3: age.in.years [28,35) 257 0.257 172 85 0.3307393 0.1424546
4: age.in.years [35,37) 79 0.079 67 12 0.1518987 -0.8724881
5: age.in.years [37, Inf) 373 0.373 277 96 0.2573727 -0.2123715
bin_iv total_iv breaks is_special_values
1: 0.057921024 0.1304985 26 FALSE
2: 0.002528906 0.1304985 28 FALSE
3: 0.005359008 0.1304985 35 FALSE
4: 0.048610052 0.1304985 37 FALSE
5: 0.016079553 0.1304985 Inf FALSE