Question

Я пытаюсь создать несбалансированные текстовые наборы данных с данными Yelp и Imdb путем занижения выборки одного из классов. Однако случайная выборка не является хорошей идеей, поскольку она приведет к потере информации, которая может привести к худшим результатам классификации, таким как плохая F-мера. Есть ли какой-нибудь другой способ или лучший метод недостаточной выборки для создания несбалансированных наборов текстовых данных, как этот? Может быть, есть подходящие данные двоичной классификации текста для моего эксперимента?

С уважением Новичок

Создание наборов данных дисбаланса для эксперимента (текстовые данные для бинарной классификации)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Создание наборов данных дисбаланса для эксперимента (текстовые данные для бинарной классификации)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы