Категориальные переменные в исключении рекурсивных признаков со случайным лесом - PullRequest
0 голосов
/ 27 января 2020

Я пытаюсь использовать рекурсивное удаление функций со случайным лесом, чтобы найти оптимальные функции. Однако меня смущает то, что я должен делать с категориальными переменными? Большую часть времени люди делают одноразовый кодировщик для категориальных переменных. Но если я сделаю один горячий кодировщик, как я узнаю, какая функция важна, а какая нет? Потому что после выполнения горячего кодирования 1 функция может стать несколькими функциями.

Мой текущий способ заключается в создании кодировщика меток для всех категориальных переменных, что означает, что я пометил все категориальные переменные как целые числа. И затем, используя код

rfc = RandomForestClassifier(random_state=101)
rfecv = RFECV(estimator=rfc, step=1, cv=StratifiedKFold(10), scoring='accuracy')
rfecv.fit(X, target)

Одна из функций - это 44 разных названия округов, я не уверен, что это правильный способ сделать это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...