Как закодировать категориальную особенность с высокой кардинальностью? - PullRequest
0 голосов
/ 04 мая 2020

Я застрял в наборе данных, который содержит некоторые категориальные характеристики с высокой мощностью. как 'item_description' ... Я читал об одном трюке, называемом хешированием, но его основная идея все еще размыта и непонятна, я также читал о библиотеке под названием Feature Engine, но я действительно не нашел что-то, что могло бы решить мою проблему. Любые предложения, пожалуйста?

1 Ответ

0 голосов
/ 04 мая 2020

Вы можете посмотреть в category_encoders. Там у вас есть много разных кодировщиков, которые вы можете использовать для кодирования столбцов с большим количеством элементов в один столбец. Среди них есть так называемые байесовские кодеры, которые используют информацию из целевой переменной для преобразования данной функции. Например, у вас есть TargetEncoder, который использует байесовские принципы для замены категориального признака ожидаемым значением заданной цели, а затем значениями, которые принимает категория, что очень похоже на LeaveOneOut. Вы также можете проверить catboost на основе CatBoostEncoder, который является распространенным выбором для кодирования функций.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...