expanding mean
- это способ предотвратить переоснащение при выполнении target encoding
. Но я не понимаю, как использовать эту технику c для применения подгонки к набору поездов и преобразования к тестовому набору для кодирования моих функций, поскольку эта техника кодирования c кодирует объекты динамически; значение кодирования для заданного уровня функции изменяется после ввода, поскольку оно зависит от совокупной суммы.
cumulative_sum = training.groupby(column)["target"].cumsum() - training["target"]
cumulative_count = training.groupby(column).cumcount()
train_new[column + "_mean_target"] = cumulative_sum/cumulative_count