Как выполнить балансировку классов на несбалансированном наборе данных - PullRequest
1 голос
/ 11 апреля 2019

У меня есть несбалансированный набор данных с большим количеством положительных отзывов (90%), чем отрицательных (10%), которым следует следовать нижеприведенные варианты.

  1. Использование class_weight='balanced' в GridsearchCV (Training & CV)) и Logistic algo (Train & Test)
  2. Разбейте данные на обучающие, CV и тестовые наборы, а затем проведите передискретизацию по классу меньшинства, взяв класс большинства (в моем случае это класс + ve).Таким образом, оба класса сбалансированы
  3. Undersampling - не учитывается из-за потери информации.

1 Ответ

0 голосов
/ 11 апреля 2019

К сожалению, для данных на естественном языке хороших вариантов не так много. - Один из быстрых способов действительно заключается в том, чтобы отбирать положительный класс и отбрасывать отрицательный, чтобы обеспечить некоторый баланс. - Более изощренным способом было бы использовать GAN для создания более отрицательных примеров .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...