У меня есть набор данных, который содержит около 10000 небольших абзацев, и абзацы принадлежат классам. Есть около 80 - 100 классов. Абзацы могут быть организованы в иерархии. Я хочу построить модель классификатора, которая будет предсказывать класс невидимого абзаца.
В настоящее время я реализовал двухступенчатую классификацию с использованием FastText. Сначала я классифицирую невидимый текст как класс верхнего уровня, а затем, используя другой классификатор, классифицирую его как подкласс идентифицированного класса верхнего уровня. Это помогло мне повысить точность.
Есть ли лучший способ сделать это? Есть ли какой-нибудь хороший иерархический классификатор, например https://github.com/globality-corp/sklearn-hierarchical-classification, для классификации текста? Или это можно как-то улучшить, используя сам FastText?