Да, ваши опасения верны, если одна горячая кодировка для одной из функций при представлении модели будет плохой, она будет иметь тенденцию расставлять приоритеты для различных функций, теперь то, какие функции будут иметь приоритет, зависит от нескольких критериев.
Случай 1: вы нормализовали другие входы, чтобы они находились в диапазоне от 0 до 1. В этом случае функция, представленная как горячее кодирование, будет доминировать в прогнозе моделей.
Случай 2: Вы не нормализовали другиеВходы, это уже будет иметь катастрофические последствия, но оно будет противостоять огромным эффектам от одного горячо закодированного вектора.
Ни один из них не будет идеальным для сценария машинного обучения, я предлагаю вам удалить одно горячее кодированиеэтой функции, а затем нормализует набор данных и только затем обучает вашу модель, это гарантирует, что все ваши функции влияют на обучение, основываясь на их участии в прогнозировании выходных данных, и не будут смещены в сторону какой-либо конкретной функции.
Если у вас есть какие-либо вопросы или не удаетсяпонять логику чего-либо, не стесняйтесь комментировать.