Я пытаюсь создать несбалансированные текстовые наборы данных с данными Yelp и Imdb путем занижения выборки одного из классов. Однако случайная выборка не является хорошей идеей, поскольку она приведет к потере информации, которая может привести к худшим результатам классификации, таким как плохая F-мера. Есть ли какой-нибудь другой способ или лучший метод недостаточной выборки для создания несбалансированных наборов текстовых данных, как этот? Может быть, есть подходящие данные двоичной классификации текста для моего эксперимента?
С уважением Новичок