В нашем случае у нас есть очень искаженный набор данных с 200 + классами и 20% классов, содержащих 80% всех данных .
В наших данных, даже с этими сильно искаженными данными, у нас есть четкое определение текстов внутри наших категорий.
Пример : текст класса большинства: « Эй, мне нужен компьютер и мышь , чтобы открыть Интернет и опубликовать программирование ответ в Стек Переполнение "
Текст класса меньшинства:" Эй, пожалуйста, дайте мне следующие предметы: Яйца , салат , лук , помидоры , молоко и пшеница ?"
Поскольку FastText имеет дело с WordNGrams и иерархическим разделением, если у вас есть очень четко определенная категория , как в моем случае выше, дисбаланс это непроблема из-за природы алгоритма.
Ссылка: Мешочек с хитростями для эффективной классификации текста - Арманд Жулин, Эдуард Грейв, Петр Бояновский, Томас Миколов