Обработка несбалансированного набора данных для SVC (классификация) - PullRequest
0 голосов
/ 10 октября 2019

Я работаю над задачей линейной классификации, где у меня есть набор данных из 700К записей. Набор данных несбалансирован, так как у меня около 610 К единиц и 90 К нулей. Уровень событий составляет около 13%. Я думаю о том, чтобы попробовать метод передискретизации.

Хотите знать, существует ли идеальный пороговый предел для избыточной выборки? И что еще я могу попробовать для улучшения моего набора данных? Спасибо за вашу помощь

...