Выбор функции в смешанном типе данных - PullRequest
0 голосов
/ 13 апреля 2020

У меня есть огромный набор данных с сочетанием числовых и категориальных переменных. Я сталкивался с различными методами выбора признаков, ориентированными в первую очередь либо на числовые, либо на категориальные данные, а не на их совокупность. Есть ли какая-либо техника выбора функций, которая работает с таким набором данных?

1 Ответ

0 голосов
/ 13 апреля 2020

Вы ищете пакет Boruta, изначально написанный на R, но также доступный в python. Boruta использует Random Forest для ранжирования объектов, но сначала вы должны обработать все пропущенные значения в своих объектах, в противном случае boruta выдает ошибку. Смотрите здесь для получения дополнительной информации:

https://datascience.stackexchange.com/questions/31112/boruta-feature-selection-package

...