Question

Размер набора данных: 81256, Классы: 200, Диапазон для каждого класса варьируется от 2757 для определенного класса до всего лишь 10 для определенного класса. Он крайне несбалансирован. Как сбалансировать этот набор данных и какой тип алгоритма следует использовать для обучения модели. Прямо сейчас я использовал случайный over-sampler для выборки и Linear SVC для обучения модели.

Mihail Burduja · Answer 1 · 04 ноября 2019

Это довольно общий вопрос, но некоторые методы для работы с несбалансированными данными в тексте (и не только):

Соберите больше данных
Пересмотрите классы меньшинства
Демонстрация большинства классов
Дополнение с помощью обратного перевода: используйте некоторый API перевода (Google Translate) и переведите ваш текст на другой язык, а затем переведите переведенный текст обратно на язык оригинала
Дополнение с помощью синонимов: замените некоторые слова в вашем тексте на их синонимы
Используйте предварительно обученные модели (BERT, GTP-2), которые не требуют большого количества данных для тонкой настройки

Как бороться с крайне несбалансированным набором данных о проблемах (текст)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как бороться с крайне несбалансированным набором данных о проблемах (текст)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов