В моих данных есть функция, которая представляет различные типы учетных записей (в основном это числа, например 15, 2, 40 и т. Д.).
Я решил использовать горячее кодирование для этого столбца с помощью get_dummies ().
Модель обрабатывает проблему обнаружения мошенничества, поэтому у меня есть приблизительно 1% данных, которые являются мошенничеством.
Перед тем, как выполнить «горячий», модель способна предсказать мошенничество.
После горячего - ничего не предвещает. 0.
Полагаю, это из-за однократного кодирования - оно производит много функций и может быть непродуктивным.
Это имеет смысл? Что я могу сделать в этом случае?
Спасибо!