Во-первых, если вы сохраните набор данных как есть, вы, скорее всего, будете всегда склонны недооценивать класс [outlier = 1], поскольку лучше прогнозировать [outlier = 0], если он неизвестен, чтоВы, кажется, понимаете.
Есть несколько простых вещей, которые вы можете сделать:
При выборке из представленного класса: если у вас есть 200 [outlier = 1],Вы можете взять наугад 200-иш [outlier = 0].Однако, похоже, что количество данных будет слишком низким.Однако его легко реализовать, поэтому вы можете попробовать.
Превышение выборки для представленного класса: прямо противоположное, где вы в основном копируете / вставляете данные из [outliers =1], чтобы получить примерно одинаковое количество вхождений.
Эти методы обычно считаются эквивалентными, однако, в вашем случае, я думаю, что избыточная выборка приведет к избыточной аппроксимации.Поскольку оба класса не имеют одинаковый диапазон возможных значений, а в диапазоне [700, 4000] 200 точек данных недостаточно для правильного обобщения.
Теперь, чтобы перейти к более сложным вещам, вымог бы попробовать начальную загрузку.Для получения более подробной информации об этой методике см. Повторная выборка начальной загрузки для несбалансированных данных при контролируемом обучении , Жорж Дюпре и Масато Кода для методологии.Это может сработать, и вы можете использовать для этого sklearn.utils.resample.Я считаю этот урок довольно хорошим.
Начальная загрузка - это метод повторной выборки, который позволяет использовать несколько сбалансированных наборов данных для обучения.Вы должны быть осторожны с переоснащением.
Об используемых метриках, вы хотите использовать AUROC, ROC или Precision / Recall.Вы можете прочитать хорошую статью о том, какие метрики использовать для несбалансированных наборов данных .
Наконец, вы можете использовать Алгоритмы Penalize, которые существенно делают так, что ошибка в наименее представленном классе (здесь [outlier = 1]) является более дорогостоящей.Иногда он используется в медицинских приложениях, где вы скорее бы поставили диагноз больному по ошибке, чем наоборот.
Эта замечательная статья, которая подводит итог всего этого , должна быть прочитана.