Горячее кодирование данных разрушает модель? - PullRequest
1 голос
/ 23 апреля 2019

В моих данных есть функция, которая представляет различные типы учетных записей (в основном это числа, например 15, 2, 40 и т. Д.). Я решил использовать горячее кодирование для этого столбца с помощью get_dummies ().

Модель обрабатывает проблему обнаружения мошенничества, поэтому у меня есть приблизительно 1% данных, которые являются мошенничеством. Перед тем, как выполнить «горячий», модель способна предсказать мошенничество. После горячего - ничего не предвещает. 0.

Полагаю, это из-за однократного кодирования - оно производит много функций и может быть непродуктивным.

Это имеет смысл? Что я могу сделать в этом случае? Спасибо!

...