В настоящее время я запустил регрессор catboost для прогнозирования y (числовой) с набором x (большинство из которых являются категориальными, а некоторые - числовыми входами). До того, как я запустил репрессор, была предпринята некоторая очистка данных, включая повышающую дискретизацию различного диапазона y, чтобы гарантировать, что предсказание не будет всеми маленькими значениями, поскольку в y имеется относительно небольшое количество больших значений. Общая подгонка и прогноз данных валидации хорошие. Однако есть и проблемы текущей модели. Это основано на моих наблюдениях после разделения данных в соответствии с наиболее важными категориальными входными данными (класс ~ 100), в соответствии с моделью catboost:
- Большинство y конкретных (1-2, из ~ 100 ) классы завышены
- Для некоторых классов оценка остается очень сходной для всех точек данных, в то время как фактический y распространяется в более широком диапазоне. Я предполагаю, что catboost слишком сильно взвешивает наиболее важные категориальные данные для прогнозирования.
- Отдельные точки данных имеют большую разницу между прогнозируемым и фактическим y (например, класс 1 имеет точки данных со значением y 8-20 ... только точка данных со значением 20 в значительной степени недооценена, тогда как другие точки данных хорошо оценены.)
Пожалуйста, посоветуйте, как я могу решить мою проблему.
Спасибо за вашу время.