Почему среднеквадратическая ошибка уменьшается при увеличении количества деревьев в случайном лесу? - PullRequest
0 голосов
/ 10 мая 2019

Я использую случайный лес для моделирования переменной ответа.Когда я смотрю на график OOB, среднеквадратическая ошибка резко падает с увеличением количества деревьев.Чем объясняется это уменьшение?

1 Ответ

0 голосов
/ 10 мая 2019

Как правило, большее количество деревьев эквивалентно большему количеству функций / параметров в вашей модели. Большее количество функций в модели ML всегда уменьшает ошибку обучения. Это просто связано с тем, что если эти дополнительные функции бесполезны, то эти функции не будут использоваться, и ошибка обучения, по крайней мере, останется той же, что и модель с меньшим количеством функций.

Это, однако, не означает, что добавление дополнительных функций / параметров всегда является хорошей идеей, поскольку уменьшение ошибки обучения не означает уменьшения ошибки обобщения. Другими словами, ваша модель может быть перегружена данными обучения, но может не показывать уменьшение ошибок в тестовых данных. Хороший подход к нахождению идеального числа деревьев состоит в том, чтобы построить график ошибки теста с увеличением количества деревьев и выбрать то число, при котором ошибка теста начинает выкладываться.

...