Question

Я пытаюсь классифицировать 10000 образцов текста на 20 классов. 4 из классов имеют только 1 выборку каждый, я пытался SMOTE устранить этот дисбаланс, но я не могу сгенерировать новые выборки для классов, которые имеют только одну запись, хотя я мог бы генерировать выборки для классов с более чем 1 выборкой. Есть предложения?

nlpnoah · Answer 1 · 16 марта 2020

Хороший объяснитель (и потенциальный ответ на ваш вопрос о том, почему он не работал на классах с низкой выборкой) по SMOTE можно найти в этом ответе .

Я думаю, что эту проблему нелегко решить с помощью готовых стратегий расширения данных. Одной из возможностей может быть просто дублирование примера, но это не добавит никакой новой информации в вашу модель.

Вот еще пара стратегий, которые вы также можете попробовать:

Техника дополнения на основе встраивания (похожа на теорию SMOTE, но лучше работает с текстовыми данными), которая описана в этом 2015, статья Уильяма Вана и Дийи Янга .
Шаг вперед на # 1 с использованием контекстуализированных встраиваний слов, описанных здесь в этой статье 2017, написанной Марзи Фади, Арианна Бизацца и Кристофом Монцем .
Используйте библиотеку замены синонимов, такую как WordNetAug.

Классификация текста с несбалансированными данными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Классификация текста с несбалансированными данными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы