Точность модели очень низкая. Как улучшить - PullRequest
0 голосов
/ 23 апреля 2020

У меня есть модель с большим количеством пропущенных данных. Существует около 20000 записей для обучения и 5000 записей для тестирования, на которых проверяется производительность моделей. Модель имеет около 120 функций. Я определил кластер в модели на основе определенной функции и заменил отсутствующие значения медианой в этих кластерах. Так что большинство пропущенных значений обрабатываются. Когда я не смог найти кластер, я заменил отсутствующие значения на ноль. Я тестировал производительность этой модели, randomforest, xgboosting, похоже, имеет почти аналогичную производительность на этих данных. Точность Xgboosting выше на 0,5%. Я попытался выбрать лучшие функции из RFE и обнаружил, что максимум, который я смог получить, составляет 80% для этой модели. Также я заметил, что точность обучения составляет 80%, а точность проверки - 100%. Как я могу уменьшить overfittness модели. Мое вменение отсутствующих данных делается неправильно? Я знаю, что точность модели может go до 90%. Не уверен, что я здесь делаю не так. Что нужно сделать, чтобы повысить мою точность

1 Ответ

0 голосов
/ 23 апреля 2020

Больше данных, выбор функций, разработка функций .... Посмотрите на свои данные, заполните пропущенное поле, возможно, вы найдете новые корреляции между данными. Там нет простого ответа. Будьте креативны.

...