У меня есть несбалансированный набор данных с большим количеством положительных отзывов (90%), чем отрицательных (10%), которым следует следовать нижеприведенные варианты.
- Использование
class_weight='balanced'
в GridsearchCV (Training & CV)) и Logistic algo (Train & Test) - Разбейте данные на обучающие, CV и тестовые наборы, а затем проведите передискретизацию по классу меньшинства, взяв класс большинства (в моем случае это класс + ve).Таким образом, оба класса сбалансированы
- Undersampling - не учитывается из-за потери информации.