Я пытаюсь построить модель истощения. Для моего случая использования показатель оттока клиентов в месяц составляет около 1-2%. Это означает, что в обучающем наборе данных частота событий очень низкая, а набор данных сильно разбалансирован. Итак, чтобы построить бинарную классификационную модель для такой проблемы, нужно ли выполнять понижающую выборку для большинства или повышающую выборку для класса меньшинства на этапе подготовки данных, чтобы набор данных стал сбалансированным?
Кроме того, я видел, что типичный показатель отклика для почтовых кампаний обычно составляет около 2-3%, и если мы пытаемся построить модель продаж / перекрестных продаж, которая предсказывает вероятность ответа на предложение, мы сталкиваемсяпроблема подобного типа с точки зрения дисбаланса набора данных.
Что следует делать в этих случаях? Нужно ли сокращать / повышать выборку, чтобы сделать ее сбалансированным набором данных, а затем строить модели, или мы можем построить модель, используя данные как есть. Пожалуйста, поделитесь своими мыслями и предоставьте обоснование.
Sumeet