RandomForestClassifier соответствует этим параметрам? - PullRequest
0 голосов
/ 04 июля 2019

Я не уверен, подходит ли этот случайный лес следующим параметрам:

clf = RandomForestClassifier (n_estimators = 10, max_depth = 30, random_state = 22, verbose = 1, oob_score = True, max_features =Нет)

У меня есть набор данных из 26 000 точек данных, и результаты обучения и испытаний следующие:

Количество функций: 30 Оценка поезда: 0,992 Тест: 0,949 Поезд ROC: 0,966 Точность:0,992 Напоминание: 0,934 oob_score: 0,934 ROC-тест: 0,792 Точность: 0,783 Напоминание: 0,602

Как вы можете видеть, поезда и тестовые наборы имеют схожую оценку, но ROC явно худший для набора тестовых данных.

Я пробовал разные параметры (хотя я не выполнил надлежащую оптимизацию), и результаты значительно различаются только при настройке min_samples_split и min_samples_leaf.Если я настрою min_samples_leaf = 5, ROC значительно уменьшится как для обучения, так и для тестирования (результаты приведены ниже), поэтому я боюсь, что когда я не настраиваю эти параметры, деревья создаются с листьями с 1 точкой данных и переобучением.

clf = RandomForestClassifier (n_estimators = 10, max_depth = 30, random_state = 22, многословный = 1, oob_score = True, max_features = Нет, min_samples_leaf = 5)

Оценка поезда: 0,961 Тест: 0,940 ROC train: 0,828 Точность: 0,930 Напоминание: 0,663 oob_score: 0,925 ROC тест: 0,726 Точность: 0,781 Напоминание: 0,465

Хотя эти результаты неплохие, они явно хуже, чем у тех, у которых нет настройки min_samples_leaf, поэтому мой вопрос,необходимо ли настроить этот параметр, чтобы он был> 1?Или возможно иметь модель, которая не подходит, даже если листья имеют только одну точку данных?

Большое спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...