Количество деревьев в случайной лесной регрессии - PullRequest
0 голосов
/ 08 июня 2019

Я изучаю модель регрессии случайных лесов.Я знаю, что это формирует много Деревьев (моделей), и тогда мы можем предсказать наши целевые переменные, усредняя результат всех Деревьев.У меня также есть хорошее понимание алгоритма регрессии дерева решений.Как мы можем сформировать лучшее количество деревьев?

Например, у меня есть набор данных, в котором я прогнозирую зарплату сотрудника, и у меня есть только две входные переменные: «Годы опыта», «Показатель эффективности», и сколько случайных деревьев я могу сформировать, используя такой набор данных?Являются ли случайные лесные деревья зависимыми от количества входных переменных?Любой хороший пример будет высоко оценен ..

Заранее спасибо

1 Ответ

0 голосов
/ 08 июня 2019

Дерево решений обучает модель всему набору данных, и создается только одна модель.В случайном лесу создается несколько деревьев решений, и каждое дерево решений обучается на подмножестве данных путем ограничения количества строк и объектов.В вашем случае у вас есть только две функции, поэтому модель будет создавать и обучать данные на подмножестве данных.

Вы можете создать любое количество случайных деревьев для ваших данных.Обычно в случайном лесу большее количество деревьев приводит к лучшей производительности, но также и к большему времени вычислений.Поэкспериментируйте с вашими данными и увидите изменения производительности между различным количеством деревьев.Если производительность остается неизменной, используйте меньшее количество деревьев для ускорения вычислений.Вы можете использовать поиск по сетке для этого.

Также вы можете поэкспериментировать с другими моделями ml, такими как линейная регрессия, которая может хорошо работать в вашем случае.

...