Случайный лес с одним деревом работает хуже, чем одно дерево решений? - PullRequest
1 голос
/ 15 января 2020

Я анализирую медицинские данные для исследования в больнице, и если я использую случайный лес только с одним деревом, тогда оценки перекрестной проверки довольно плохие (с указанием переобучения), тогда как, если я использую дерево решений, значения оценок фактически тихие хорошо. Оба классификатора имеют одинаковый параметр глубины. Так как же объяснить это поведение?

1 Ответ

0 голосов
/ 16 января 2020

Процедура построения деревьев решений обычно включает в себя обрезку, которая является частью, которая выполняется апостериори, чтобы уменьшить глубину и избежать переобучения. Случайный лес не использует этот метод, поскольку он фактически использует преимущества высокой дисперсии переопределенных деревьев решений путем их усреднения.

Более того, дерево решений будет построено путем обучения на полном наборе данных, в то время как дерево «случайного леса» будет построено на bootstrap набора обучающих данных, что, вероятно, может привести к ухудшению производительности, так как оно будет смещено к записям, которые были включены несколько раз в выборку. Опять же, Random Forest использует это преимущество, усредняя по нескольким деревьям, но здесь это является недостатком.

В общем, разница в производительности не удивительна.

...