Я пытаюсь использовать рекурсивное удаление функций со случайным лесом, чтобы найти оптимальные функции. Однако меня смущает то, что я должен делать с категориальными переменными? Большую часть времени люди делают одноразовый кодировщик для категориальных переменных. Но если я сделаю один горячий кодировщик, как я узнаю, какая функция важна, а какая нет? Потому что после выполнения горячего кодирования 1 функция может стать несколькими функциями.
Мой текущий способ заключается в создании кодировщика меток для всех категориальных переменных, что означает, что я пометил все категориальные переменные как целые числа. И затем, используя код
rfc = RandomForestClassifier(random_state=101)
rfecv = RFECV(estimator=rfc, step=1, cv=StratifiedKFold(10), scoring='accuracy')
rfecv.fit(X, target)
Одна из функций - это 44 разных названия округов, я не уверен, что это правильный способ сделать это.