Я пытаюсь запустить случайный лес бинарной классификации на наборе данных, который содержит около 25 000 наблюдений, а у меня где-то около 300 объектов.Все эти функции появляются по крайней мере один раз, но довольно многие из них встречаются всего менее 50 раз, а некоторые - менее 10 раз.
Я подозреваю, что некоторые из них могут быть идеальными предикторами одноготак или иначе, но насколько они полезны, если они такие необычные?Это значительно сократило бы время обучения моей модели, если бы я мог удалить их, прежде чем что-то запускать.Или мне просто запустить модель со всем и удалить наименее важные функции?