Я пытаюсь использовать нейронную сеть для двоичной и мультиклассовой классификации. Мой набор данных имеет двоичные, числовые и номинальные переменные. Номинальные значения в обучающем наборе имеют много значений, поэтому, когда я выполняю OneHotEncoding
, измерение перемещается от 42
до 122
. Кроме того, некоторые значения присутствуют только в обучающем наборе, поскольку набор данных был предложен таким образом.
Поэтому я использовал следующий порядок:
- Кодирование в одно касание
- Нормализация
- Выбор функций или PCA
Но я обнаружил, что некоторые люди, которые также использовали нейронные сети, выполняли выбор функций еще до выполнения кодирования в горячем режиме. Что странно для меня, потому что в нейронной сети работают только числовые данные. Таким образом, запуск алгоритма выбора признаков, который может удалить категориальных значений, может нанести вред нейронной сети, особенно в том, что одно горячее кодирование влияет на размерность всей модели.
Но я не знаю, поэтому я должен спросить: каков правильный порядок здесь? Этот поток соответствует порядку, который я использовал, но меня больше интересует элемент быстрого выбора кодирования и выбора функции