Как классифицировать текстовые данные с сотнями классов и меньшим количеством образцов в каждом классе - PullRequest
1 голос
/ 03 мая 2019

У меня есть набор данных, который содержит около 10000 небольших абзацев, и абзацы принадлежат классам. Есть около 80 - 100 классов. Абзацы могут быть организованы в иерархии. Я хочу построить модель классификатора, которая будет предсказывать класс невидимого абзаца.

В настоящее время я реализовал двухступенчатую классификацию с использованием FastText. Сначала я классифицирую невидимый текст как класс верхнего уровня, а затем, используя другой классификатор, классифицирую его как подкласс идентифицированного класса верхнего уровня. Это помогло мне повысить точность.

Есть ли лучший способ сделать это? Есть ли какой-нибудь хороший иерархический классификатор, например https://github.com/globality-corp/sklearn-hierarchical-classification, для классификации текста? Или это можно как-то улучшить, используя сам FastText?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...