Почему больше функций в случайном лесу резко снижает точность? - PullRequest
0 голосов
/ 03 января 2019

Я использую модуль случайных лесов sklearn для прогнозирования значений на основе 50 различных измерений. Когда я увеличиваю количество измерений до 150, точность модели резко снижается. Я ожидал бы, что больше данных только сделает модель более точной, но больше функций, как правило, делают модель менее точной.

Я подозреваю, что разбиение может быть выполнено только по одному измерению, что означает, что объектам, которые на самом деле более важны, уделяется меньше внимания при построении деревьев. Может ли это быть причиной?

Ответы [ 2 ]

0 голосов
/ 03 января 2019

Ваша модель соответствует данным.

Из Википедии:

Переопределенная модель - это статистическая модель, которая содержит больше параметров, чем может быть оправдано данными.

https://qph.fs.quoracdn.net/main-qimg-412c8556aacf7e25b86bba63e9e67ac6-c

Существует множество иллюстраций переоснащения, но, например, этот двухмерный график представляет различные функции, которые были бы изучены для задачи двоичной классификации. Поскольку функция справа имеет слишком много параметров, она распознает неправильные шаблоны данных, которые не обобщают должным образом.

0 голосов
/ 03 января 2019

Да, добавленные вами дополнительные функции могут не обладать хорошей предсказательной способностью, и поскольку случайный лес требует случайного подмножества функций для построения отдельных деревьев, первоначальные 50 функций могли быть упущены.Чтобы проверить эту гипотезу, вы можете построить график переменной важности, используя sklearn.

...