Я делаю сравнение расширенных деревьев классификации и увеличенных деревьев регрессии в python, используя xgboost как частично проект для клиента и частично внутренний эксперимент.Я использую одни и те же данные, но моделирую разные цели.
Для модели расширенных классификационных деревьев я транспонирую данные, чтобы в качестве цели я выбрал флаг Хороший / Плохой и использую вероятность того, что кто-то был хорошим / плохимкак вес образца
Мы успешно использовали этот подход в других случаях, получая довольно точные модели с точными точечными предсказаниями.Используя раннюю остановку, я получаю модель с примерно 1000 оценщиками после настройки параметров и т. Д.
Для модели деревьев регрессии с усилением я использую вес выборки (в основном вероятность того, что кто-то будет хорошим / плохим) в качествецель и в конечном итоге ~ 12000 оценок в окончательной модели.
Почему существует такое большое расхождение между непрерывной целью и дискретной целью с точки зрения сложности модели?