Создание наборов данных дисбаланса для эксперимента (текстовые данные для бинарной классификации) - PullRequest
0 голосов
/ 11 марта 2020

Я пытаюсь создать несбалансированные текстовые наборы данных с данными Yelp и Imdb путем занижения выборки одного из классов. Однако случайная выборка не является хорошей идеей, поскольку она приведет к потере информации, которая может привести к худшим результатам классификации, таким как плохая F-мера. Есть ли какой-нибудь другой способ или лучший метод недостаточной выборки для создания несбалансированных наборов текстовых данных, как этот? Может быть, есть подходящие данные двоичной классификации текста для моего эксперимента?

С уважением Новичок

...