Как выполнить выбор признаков для набора данных с категориальными и числовыми признаками? - PullRequest
0 голосов
/ 14 июля 2020

Я работаю над набором данных с 30 столбцами (29 числовых, 1 не порядковый категориальный). Я закодировал категориальную функцию в горячем режиме и достиг 35 столбцов. Чтобы повысить эффективность обучения, я хочу выполнить выбор функций в моем наборе данных. Однако меня смущает то, как обрабатывать набор данных с категориальными и числовыми функциями вместе.

  1. Я читал, что неразумно применять PCA к манекенам, поскольку они дискретны. Разумно ли сначала применять PCA к числовым характеристикам, а затем объединять их с помощью макетов?
  2. Я попытался реализовать рекурсивное исключение функций с перекрестной проверкой (RFECV) для всего пространства функций. Но я не думаю, что разумно удалять некоторые, но не все фиктивные функции, поскольку они созданы из одной категории.

Есть предложения? Любая помощь приветствуется.

...