Кодирующий категориальный предиктор для регрессора XGBoost - PullRequest
0 голосов
/ 10 января 2019

Я пытаюсь прогнозировать продажи, используя xgboost. Одна из моих переменных это sales_county. В этом столбце 75 уникальных значений. У меня вопрос, какой будет лучший метод кодирования для этого столбца. Одно горячее кодирование не вариант, поскольку это значительно увеличит количество функций. Я думал о кодировщике Label, но меня беспокоило то, как XGboost создаст ординальные отношения для закодированных округов, например. county45 больше, чем county44, это правда? Я также читал о хитрости хеширования, но я не мог понять это очень хорошо. Любая помощь или совет о том, как выполнить это задание, очень ценится.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...