Существуют два различных подхода к решению проблемы несбалансированных данных: подход на уровне алгоритма и на уровне данных.
Подход на основе алгоритма: Как уже упоминалось выше, алгоритмы ML наказывают за ложные срабатывания и ложные отрицанияв равной степени.Способ противостоять этому - модифицировать сам алгоритм, чтобы повысить прогнозирующую производительность в классе меньшинства.Это может быть выполнено с помощью обучения на основе распознавания или обучения с учетом затрат.Не стесняйтесь проверять Drummond & Holte (2003);Элкан (2001);и Manevitz & Yousef (2001), если вы хотите узнать больше об этой теме.
Подход к данным: Это состоит из повторной выборки данных для смягчения эффекта, вызванного классомдисбаланс.Подход данных получил широкое признание среди практиков, поскольку он более гибкий и позволяет использовать новейшие алгоритмы.Двумя наиболее распространенными методами являются избыточная выборка и недостаточная выборка.
Избыточная выборка увеличивает число представителей меньшинства в обучающем наборе.Преимущество передискретизации состоит в том, что никакая информация из исходного обучающего набора не теряется, поскольку все наблюдения из классов меньшинства и большинства сохраняются.С другой стороны, это склонно к переоснащению. Недостаточная выборка, , в отличие от избыточной выборки, направлена на уменьшение числа основных выборок для сбалансирования распределения классов.Поскольку он удаляет наблюдения из исходного набора данных, он может отбросить полезную информацию.
для дальнейшего ознакомительного посещения: https://medium.com/james-blogs/handling-imbalanced-data-in-classification-problems-7de598c1059f