Извлечение сущностей из неструктурированного текста NLP Regex - PullRequest
0 голосов
/ 13 сентября 2018

Мне нужно создать систему, которая анализирует различные PDF из разных компаний с помощью шаблона. Шаблон, который будет создан один раз для компании, ссылается на поля извлечения, уже содержащиеся в PDF-файле, для извлечения этой информации (Список продуктов, Список видов деятельности, Название компании и т. Д.).

Поля извлечения - это простые неструктурированные строки.

Тогда я должен заполнить базу данных этими сущностями. Чтобы извлечь их, я думал об извлечении информации, но вот проблема:

У меня есть отдельные объекты, такие как Действия и Продукты, в БД, и я должен заполнить различные форматы из этих шаблонов разных компаний.

Например, сущность Activity в БД создается с такими свойствами: Описание, Идентификатор работника, Стоимость, Длительность, Время начала ...

Пример деятельности от XXX Company PDF:

[ "Complex Description"  293912(Identifier) 2,75(Cost) 5,75h(Duration) ...]

Пример деятельности от компании YYY PDF:

[ AKLUNS (Identifier of Worker)  "description" 2990(Cost) 30m(Duration) ...]

Таким образом, у меня могут быть разные ФОРМАТЫ одного и того же, я могу делать это с правилами REGEX, но проблема в том, что эта система будет автоматизированной и динамичной:

Если новый клиент хочет присоединиться к этой системе, его поля извлечения должны быть в одной и той же БД сущности (пример деятельности), но я не могу знать их формат. Если идентификатор не будет соответствовать моим правилам REGEX? (Требование состоит в том, что я не могу делать другие модификации системы после ее «крайнего срока»)

Я думал о Системе извлечения информации, но я узнал, что она построена на правилах REGEX и на ПРИМЕРАХ. Но если у меня есть 2 или более различных формата деятельности, как я могу создавать примеры? Для новых компаний, которые присоединятся, мне нужно будет создавать новые примеры и так далее. Пока эта система должна быть АВТОМАТИЗИРОВАНА для заполнения БД извлеченными полями.

Как я могу это сделать? Я не уверен, что правильно объяснил. дай мне знать! Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...