10 случайных лесов с 50 деревьями в каждом на одинаковых данных равны ли одному случайному лесу на тех же данных с 500 деревьями? - PullRequest
0 голосов
/ 05 июля 2019

У меня есть набор данных с 1 миллионом строк.

При запуске 1 случайного леса выживания, содержащего 500 деревьев, с пакетом randomForestSRC в R это занимает много времени из-за проблем с памятью.

Итак, могу ли я запустить 10 случайных лесов выживанияс 50 деревьями на одних и тех же данных, каждый раз с разными семенами и усредняя результаты по 10 случайным лесам (путем деления на 10), так что я могу получить достаточно сходный результат с тем, что с 500 деревьями?

1 Ответ

0 голосов
/ 09 июля 2019

Да, результаты должны быть похожими. Случайный лес - это просто набор деревьев решений. Добавление большего количества деревьев позже не составляет проблем, если вы используете одни и те же данные и параметры с каждым из ваших 10 наборов из 50 деревьев. Кроме того, вы можете посмотреть на более эффективные версии алгоритма случайного леса, например, пакетный рейнджер, который также может выживать в лесах, iirc.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...