Классификация текста с несбалансированными данными - PullRequest
0 голосов
/ 16 марта 2020

Я пытаюсь классифицировать 10000 образцов текста на 20 классов. 4 из классов имеют только 1 выборку каждый, я пытался SMOTE устранить этот дисбаланс, но я не могу сгенерировать новые выборки для классов, которые имеют только одну запись, хотя я мог бы генерировать выборки для классов с более чем 1 выборкой. Есть предложения?

1 Ответ

0 голосов
/ 16 марта 2020

Хороший объяснитель (и потенциальный ответ на ваш вопрос о том, почему он не работал на классах с низкой выборкой) по SMOTE можно найти в этом ответе .

Я думаю, что эту проблему нелегко решить с помощью готовых стратегий расширения данных. Одной из возможностей может быть просто дублирование примера, но это не добавит никакой новой информации в вашу модель.

Вот еще пара стратегий, которые вы также можете попробовать:

  1. Техника дополнения на основе встраивания (похожа на теорию SMOTE, но лучше работает с текстовыми данными), которая описана в этом 2015, статья Уильяма Вана и Дийи Янга .
  2. Шаг вперед на # 1 с использованием контекстуализированных встраиваний слов, описанных здесь в этой статье 2017, написанной Марзи Фади, Арианна Бизацца и Кристофом Монцем .
  3. Используйте библиотеку замены синонимов, такую ​​как WordNetAug.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...