Мое понимание из документации классификатора случайных лесов sklearn состоит в том, что на каждом узле новая выборка из m объектов выбирается из общего количества M. Для каждого из них вычисляется некоторый критерий, и выбирается лучший для разделения. Мой вопрос заключается в том, отбираются ли эти функции с заменой?
Здесь они говорят, что они делают Алгоритм случайного роста лесных деревьев и остановились на некотором количестве выборок в листе, чтобы иметь возможность обнаружить некоторые связей, но значение по умолчанию для параметра листьев min samples в реализации sklearn равно 1. Если это так, то почему бы вам разделить одну и ту же функцию дважды?
Я полагаю, что это не так, что в каждом узле из M удаляется новая выборка объектов размером m с удалением всех ранее разбитых объектов, поэтому каждое дерево либо вырастет до глубины макс. M, либо остановится, когда каждый листовой узел станет чистым.
это одно из двух?