Я пытаюсь смоделировать классификатор, используя XGBoost на сильно несбалансированном наборе данных, с ограниченным количеством положительных выборок и практически бесконечным числом отрицательных выборок.Возможно ли, что слишком много отрицательных выборок (что сделает набор данных еще более несбалансированным) ослабит предсказательную силу модели?Есть ли причина ограничивать количество отрицательных выборок помимо времени выполнения?
Мне известен параметр scale_pos_weight
, который должен решить проблему, но моя интуиция говорит, что даже этот метод имеет свои пределы.