Я работаю над набором данных с 30 столбцами (29 числовых, 1 не порядковый категориальный). Я закодировал категориальную функцию в горячем режиме и достиг 35 столбцов. Чтобы повысить эффективность обучения, я хочу выполнить выбор функций в моем наборе данных. Однако меня смущает то, как обрабатывать набор данных с категориальными и числовыми функциями вместе.
- Я читал, что неразумно применять PCA к манекенам, поскольку они дискретны. Разумно ли сначала применять PCA к числовым характеристикам, а затем объединять их с помощью макетов?
- Я попытался реализовать рекурсивное исключение функций с перекрестной проверкой (RFECV) для всего пространства функций. Но я не думаю, что разумно удалять некоторые, но не все фиктивные функции, поскольку они созданы из одной категории.
Есть предложения? Любая помощь приветствуется.