Биннинг в R с ограничениями на вес доказательств - PullRequest
0 голосов
/ 09 мая 2019

В следующем примере из документации по пакету "Scorecard" все переменные являются binned.Тем не менее, если я посмотрю на предложенное группирование для «age.in.years», показатель по умолчанию в зависимости от возраста следует шаблону американских горок (вы можете посмотреть график или столбец «badprob»).Можем ли мы наложить условие на снижение скорости дефолта (увеличение веса доказательств) с увеличением возраста, что максимизирует информационную ценность биннинга?Есть идеи?

Большое спасибо

    library(scorecard)
    # data preparing ------
    # load germancredit data
    data("germancredit")
    # filter variable via missing rate, iv, identical value rate
    dt_f = var_filter(germancredit, y="creditability")
    # breaking dt into train and test
    dt_list = split_df(dt_f, y="creditability", ratio = 0.6, seed = 30)
    label_list = lapply(dt_list, function(x) x$creditability)
    # woe binning ------
    bins = woebin(dt_f, y="creditability")
    > bins$age.in.years
       variable       bin count count_distr good bad   badprob        woe
1: age.in.years [-Inf,26)   190       0.190  110  80 0.4210526  0.5288441
2: age.in.years   [26,28)   101       0.101   74  27 0.2673267 -0.1609304
3: age.in.years   [28,35)   257       0.257  172  85 0.3307393  0.1424546
4: age.in.years   [35,37)    79       0.079   67  12 0.1518987 -0.8724881
5: age.in.years [37, Inf)   373       0.373  277  96 0.2573727 -0.2123715
        bin_iv  total_iv breaks is_special_values
1: 0.057921024 0.1304985     26             FALSE
2: 0.002528906 0.1304985     28             FALSE
3: 0.005359008 0.1304985     35             FALSE
4: 0.048610052 0.1304985     37             FALSE
5: 0.016079553 0.1304985    Inf             FALSE
...