Я пытаюсь прогнозировать продажи, используя xgboost. Одна из моих переменных это sales_county. В этом столбце 75 уникальных значений. У меня вопрос, какой будет лучший метод кодирования для этого столбца. Одно горячее кодирование не вариант, поскольку это значительно увеличит количество функций. Я думал о кодировщике Label, но меня беспокоило то, как XGboost создаст ординальные отношения для закодированных округов, например. county45 больше, чем county44, это правда?
Я также читал о хитрости хеширования, но я не мог понять это очень хорошо.
Любая помощь или совет о том, как выполнить это задание, очень ценится.