Я новичок в НЛП и имею общий вопрос (может быть, слишком общий).У меня есть два набора данных.Первый - это документы на сельскохозяйственные патенты с заданной классификацией по классам.Второй список слов / короткие предложения (сельскохозяйственные задачи, такие как «Применить навоз» или «Диск»).Моя цель - классифицировать каждую задачу в один из классов патентов.
На данном этапе я не хочу начинать с основ и программировать все этапы алгоритма.Я думал использовать этот алгоритм от spaCy, с небольшими изменениями.Этот алгоритм обучает модель для классификации обзоров по категориям, а затем применяет модель к новым обзорам.Единственное отличие, которое я вижу в моем случае, заключается в том, что данные, которые я хочу классифицировать с помощью модели, не совпадают по длине с данными обучения (короткие предложения и несколько абзацев).Мои вопросы:
- Имеет ли смысл мой план?
- Есть ли какие-либо рекомендации по улучшению алгоритма для моей проблемы?
- Поможет ли это провести дополнительное обучение длямодель, основанная на тексте из книги, из которой я собрал список задач (этот текст, конечно, без классификации. Я имею в виду обучение базовой модели, чтобы он знал, какие слова похожи друг на друга или обычно собираются вместе, и т. д..)
Спасибо!