Вообще, каково будет подходящее соотношение (точек данных / признака) для обучения в произвольном лесу?
В частности, у меня есть 2000 помеченных документов, и я хотел бы векторизовать каждый документ в надлежащее количество словесных объектов. Тогда что же это за правильное число для случайного лесного обучения? 500 функций? Хотя 5000 функций было бы слишком много?
Спасибо