Я использовал сопоставитель на основе правил Spacy для извлечения небольших разделов из более длинных текстов, чтобы создать фрейм данных, который я сохраняю как csv, который затем использую для классификации с scikit, spacy или другим.
Мэтчер работает прекрасно, но теперь растерян и начинает сомневаться в моем подходе.
Поскольку у меня есть файлы, которые были закодированы вручную с соответствующими текстовыми извлечениями, которые я использовал для создания соответствующих правил, могу ли я на самом деле просто обучить модель на ручном тексте в пространстве, а затем использовать эту модель для классификации на все новые документы? Или вы тренируете модель для сопоставления?
Документы, из которых взяты текстовые примеры, намного длиннее, тогда как примеры представляют собой ~ одно или два предложения максимум.
Я спрашиваю, потому что это будет позже потребуется извлечь и классифицировать различные переменные, и хочу быть уверенным, что я не упускаю что-то действительно очевидное или не теряю время