Как бороться с крайне несбалансированным набором данных о проблемах (текст)? - PullRequest
0 голосов
/ 04 ноября 2019

Размер набора данных: 81256, Классы: 200, Диапазон для каждого класса варьируется от 2757 для определенного класса до всего лишь 10 для определенного класса. Он крайне несбалансирован. Как сбалансировать этот набор данных и какой тип алгоритма следует использовать для обучения модели. Прямо сейчас я использовал случайный over-sampler для выборки и Linear SVC для обучения модели.

1 Ответ

0 голосов
/ 04 ноября 2019

Это довольно общий вопрос, но некоторые методы для работы с несбалансированными данными в тексте (и не только):

  • Соберите больше данных
  • Пересмотрите классы меньшинства
  • Демонстрация большинства классов
  • Дополнение с помощью обратного перевода: используйте некоторый API перевода (Google Translate) и переведите ваш текст на другой язык, а затем переведите переведенный текст обратно на язык оригинала
  • Дополнение с помощью синонимов: замените некоторые слова в вашем тексте на их синонимы
  • Используйте предварительно обученные модели (BERT, GTP-2), которые не требуют большого количества данных для тонкой настройки
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...