Как использовать целевую кодировку: расширение среднего на тестовом наборе - PullRequest
0 голосов
/ 17 февраля 2020

expanding mean - это способ предотвратить переоснащение при выполнении target encoding. Но я не понимаю, как использовать эту технику c для применения подгонки к набору поездов и преобразования к тестовому набору для кодирования моих функций, поскольку эта техника кодирования c кодирует объекты динамически; значение кодирования для заданного уровня функции изменяется после ввода, поскольку оно зависит от совокупной суммы.

cumulative_sum = training.groupby(column)["target"].cumsum() - training["target"]
cumulative_count = training.groupby(column).cumcount()
train_new[column + "_mean_target"] = cumulative_sum/cumulative_count

1 Ответ

0 голосов
/ 29 марта 2020

Разве вы не должны просто сопоставить средние значения целевой переменной, рассчитанные для разных категорий, с соответствующими категориями в вашем тестовом наборе? Накопительные средства нужны только для учебной части в целях регуляризации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...