Я пытаюсь решить довольно сложную проблему - создание универсального синтаксического анализатора для должностных инструкций.Идея заключается в том, что с учетом описания задания анализатор должен уметь идентифицировать и извлекать различные разделы, такие как название должности, местоположение, описание задания, обязанности, квалификация и т. Д. Описание задания будет в основном вырезано с веб-страницы.
Подход, основанный на правилах (например, регулярные выражения), не работает, поскольку сценарий слишком общий.Мой следующий подход заключался в обучении пользовательского классификатора NER с использованием SpaCy;Я делал это много раз раньше.Однако я сталкиваюсь с несколькими проблемами:
Объекты могут быть очень маленькими по размеру (местоположение, должность и т. Д.) Или очень большими (обязанности, квалификация и т. Д.).Я не уверен, насколько хорошо работает NER, если объекты состоят из нескольких строк или абзаца?Большинство случаев, которые я видел, это те, в которых сущности не длиннее нескольких слов.Хорошо ли работает NER в Spacy, если текст сущностей, которые я хочу идентифицировать, имеет достаточно длинный размер?(Я могу привести примеры, если это необходимо, чтобы сделать его более понятным).
Есть ли какая-либо другая стратегия, кроме NER, которую я могу использовать для анализа этих должностных инструкций, как я уже упоминал?
Любая помощь здесь будет принята с благодарностью.Я несколько месяцев бился головой о разные стены и добился определенного прогресса, но я не уверен, что я на правильном пути или существует лучший подход.