Следует ли при использовании случайного леса включать функции с высокой степенью прогнозирования, но встречающиеся очень редко? - PullRequest
0 голосов
/ 27 декабря 2018

Я пытаюсь запустить случайный лес бинарной классификации на наборе данных, который содержит около 25 000 наблюдений, а у меня где-то около 300 объектов.Все эти функции появляются по крайней мере один раз, но довольно многие из них встречаются всего менее 50 раз, а некоторые - менее 10 раз.

Я подозреваю, что некоторые из них могут быть идеальными предикторами одноготак или иначе, но насколько они полезны, если они такие необычные?Это значительно сократило бы время обучения моей модели, если бы я мог удалить их, прежде чем что-то запускать.Или мне просто запустить модель со всем и удалить наименее важные функции?

1 Ответ

0 голосов
/ 08 января 2019

Запустите одну модель со всем, а другую модель без этих функций.

Сравните показатель ошибки для 2 моделей, а также проверьте значения важности функций, чтобы увидеть, полезны ли эти функции.

Вы также можете использовать методы выбора функций, такие как SelectKBest и т. Д. Из sklearn

https://scikit -learn.org / stable / modules / classes.html # module-sklearn.feature_selection

...