Question

У меня есть набор данных с 1 миллионом строк.

При запуске 1 случайного леса выживания, содержащего 500 деревьев, с пакетом randomForestSRC в R это занимает много времени из-за проблем с памятью.

Итак, могу ли я запустить 10 случайных лесов выживанияс 50 деревьями на одних и тех же данных, каждый раз с разными семенами и усредняя результаты по 10 случайным лесам (путем деления на 10), так что я могу получить достаточно сходный результат с тем, что с 500 деревьями?

Vriko · Answer 1 · 09 июля 2019

Да, результаты должны быть похожими. Случайный лес - это просто набор деревьев решений. Добавление большего количества деревьев позже не составляет проблем, если вы используете одни и те же данные и параметры с каждым из ваших 10 наборов из 50 деревьев. Кроме того, вы можете посмотреть на более эффективные версии алгоритма случайного леса, например, пакетный рейнджер, который также может выживать в лесах, iirc.

10 случайных лесов с 50 деревьями в каждом на одинаковых данных равны ли одному случайному лесу на тех же данных с 500 деревьями?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

10 случайных лесов с 50 деревьями в каждом на одинаковых данных равны ли одному случайному лесу на тех же данных с 500 деревьями?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы