Мы знаем, что при извлечении данных нам часто требуется горячее кодирование для кодирования категориальных функций, поэтому одна категориальная функция будет кодироваться для нескольких функций "0/1".
Существует специальноеслучай, который меня смутил: теперь у меня есть одна категориальная функция и одна числовая функция в моем наборе данных. Я кодирую категориальную функцию в 300 новых функций "0/1", а затем нормализовал числовую функцию с помощью MinMaxScaler, так что все значения моих функций находятся вдиапазон от 0 до 1. Но подозрительное явление заключается в том, что соотношение категориальных и числовых признаков, по-видимому, изменилось с 1: 1 до 300: 1.
Правильн ли мой метод кодирования? Это заставило меняСомневаюсь в одном горячем кодировании, я думаю, это может привести к проблеме несбалансированных функций.
Кто-нибудь может сказать мне правду?Любое слово будет оценено!Спасибо !!!