Я обучил классификатор xgboost с категориальными функциями, которые я ранее один горячо закодировал.
Например, у меня есть категорическая функция «Год», которая принимает значения между 2014 и 2018. Когда OHEd, я получаю 5 двоичных функций: Год_2014, Год_2015, Год_2016, Год_2017, Год_2018. Что произойдет, если я сделаю прогноз для выборки, у которой год = 2019, поскольку функция год_2019 не существует?
В целом, каков надежный способ преобразования данных для прогнозирования новых выборок?