Я использую H2O для построения модели классификации, и я заметил, что целевое кодирование моих категориальных переменных с высокой кардинальностью помогает улучшить производительность (меньше ложных срабатываний).
Я использую R api, ипоскольку документ определил http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/target-encoding.html, я создал отображение с h2o.target_encode_fit
и применил к обучению, тестированию и проверке с h2o.target_encode_transform
.
Теперь я хотел бы запустить мою модель в производство.
Из документации h2o.target_encode_transform
представляется, что аргумент y
функции является обязательным.Но на этапе производства я не знаю свою целевую переменную.
Можно ли безопасно применить кодировку обучения к новым данным?В отсутствие какой-либо другой альтернативы я бы извлек из категориальных столбцов моего обучающего кадра данных вместе с кодированием, а затем включил новые данные в категориальных столбцах.
Надеюсь, я был достаточно ясен.