Повышение выборки (или избыточная выборка) может привести к более сбалансированному набору данных, но оно также поощряет перенастройку из-за дублирования примеров классов меньшинства ( Kotsiantis et al. ).
Как упомянуто user2974951 , SMOTE - это метод, который производит выборки на основе существующих данных, снижая вышеупомянутый риск переобучения классов меньшинства ( Chawla et al. показывают заметное улучшение, используя SMOTE по сравнению с настройкой смещения).
В качестве альтернативы, вы можете попробовать выбрать алгоритм обучения, который менее восприимчив к смещению на основе дисбаланса (например, SVM хорошо работает с несбалансированными данными Sun et al. ).
Если это невозможно, взвешивание на основе термина , как предложено Liu и др. или аналогичные методы взвешивания, как упомянуто Mark.F , может помочь повысить точность прогнозирования при обучении с использованием несбалансированного набора данных.
Удачи!