Разбор / определение разделов в должностных инструкциях - PullRequest
0 голосов
/ 03 января 2019

Я пытаюсь решить довольно сложную проблему - создание универсального синтаксического анализатора для должностных инструкций.Идея заключается в том, что с учетом описания задания анализатор должен уметь идентифицировать и извлекать различные разделы, такие как название должности, местоположение, описание задания, обязанности, квалификация и т. Д. Описание задания будет в основном вырезано с веб-страницы.

Подход, основанный на правилах (например, регулярные выражения), не работает, поскольку сценарий слишком общий.Мой следующий подход заключался в обучении пользовательского классификатора NER с использованием SpaCy;Я делал это много раз раньше.Однако я сталкиваюсь с несколькими проблемами:

  1. Объекты могут быть очень маленькими по размеру (местоположение, должность и т. Д.) Или очень большими (обязанности, квалификация и т. Д.).Я не уверен, насколько хорошо работает NER, если объекты состоят из нескольких строк или абзаца?Большинство случаев, которые я видел, это те, в которых сущности не длиннее нескольких слов.Хорошо ли работает NER в Spacy, если текст сущностей, которые я хочу идентифицировать, имеет достаточно длинный размер?(Я могу привести примеры, если это необходимо, чтобы сделать его более понятным).

  2. Есть ли какая-либо другая стратегия, кроме NER, которую я могу использовать для анализа этих должностных инструкций, как я уже упоминал?

Любая помощь здесь будет принята с благодарностью.Я несколько месяцев бился головой о разные стены и добился определенного прогресса, но я не уверен, что я на правильном пути или существует лучший подход.

1 Ответ

0 голосов
/ 15 апреля 2019

Я бы предложил создать базовый (основанный на правилах) подход, используя flashtext . Что на самом деле дает довольно приличные и более быстрые результаты на основе ваших данных. Хороший механизм обратной связи поможет в построении вашей модели тегов последовательности для анализа ваших должностных инструкций и данных куратора. Используя эти данные, создайте модель NER, используя современную библиотеку искусства flair

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...