Я работаю над задачей линейной классификации, где у меня есть набор данных из 700К записей. Набор данных несбалансирован, так как у меня около 610 К единиц и 90 К нулей. Уровень событий составляет около 13%. Я думаю о том, чтобы попробовать метод передискретизации.
Хотите знать, существует ли идеальный пороговый предел для избыточной выборки? И что еще я могу попробовать для улучшения моего набора данных? Спасибо за вашу помощь