Классификация текста: обучение на основе длинных документов и применение его для коротких предложений - PullRequest
0 голосов
/ 23 января 2019

Я новичок в НЛП и имею общий вопрос (может быть, слишком общий).У меня есть два набора данных.Первый - это документы на сельскохозяйственные патенты с заданной классификацией по классам.Второй список слов / короткие предложения (сельскохозяйственные задачи, такие как «Применить навоз» или «Диск»).Моя цель - классифицировать каждую задачу в один из классов патентов.

На данном этапе я не хочу начинать с основ и программировать все этапы алгоритма.Я думал использовать этот алгоритм от spaCy, с небольшими изменениями.Этот алгоритм обучает модель для классификации обзоров по категориям, а затем применяет модель к новым обзорам.Единственное отличие, которое я вижу в моем случае, заключается в том, что данные, которые я хочу классифицировать с помощью модели, не совпадают по длине с данными обучения (короткие предложения и несколько абзацев).Мои вопросы:

  1. Имеет ли смысл мой план?
  2. Есть ли какие-либо рекомендации по улучшению алгоритма для моей проблемы?
  3. Поможет ли это провести дополнительное обучение длямодель, основанная на тексте из книги, из которой я собрал список задач (этот текст, конечно, без классификации. Я имею в виду обучение базовой модели, чтобы он знал, какие слова похожи друг на друга или обычно собираются вместе, и т. д..)

Спасибо!

...