Мне нужно создать систему, которая анализирует различные PDF из разных компаний с помощью шаблона. Шаблон, который будет создан один раз для компании, ссылается на поля извлечения, уже содержащиеся в PDF-файле, для извлечения этой информации (Список продуктов, Список видов деятельности, Название компании и т. Д.).
Поля извлечения - это простые неструктурированные строки.
Тогда я должен заполнить базу данных этими сущностями. Чтобы извлечь их, я думал об извлечении информации, но вот проблема:
У меня есть отдельные объекты, такие как Действия и Продукты, в БД, и я должен заполнить различные форматы из этих шаблонов разных компаний.
Например, сущность Activity в БД создается с такими свойствами: Описание, Идентификатор работника, Стоимость, Длительность, Время начала ...
Пример деятельности от XXX Company PDF:
[ "Complex Description" 293912(Identifier) 2,75(Cost) 5,75h(Duration) ...]
Пример деятельности от компании YYY PDF:
[ AKLUNS (Identifier of Worker) "description" 2990(Cost) 30m(Duration) ...]
Таким образом, у меня могут быть разные ФОРМАТЫ одного и того же, я могу делать это с правилами REGEX, но проблема в том, что эта система будет автоматизированной и динамичной:
Если новый клиент хочет присоединиться к этой системе, его поля извлечения должны быть в одной и той же БД сущности (пример деятельности), но я не могу знать их формат. Если идентификатор не будет соответствовать моим правилам REGEX? (Требование состоит в том, что я не могу делать другие модификации системы после ее «крайнего срока»)
Я думал о Системе извлечения информации, но я узнал, что она построена на правилах REGEX и на ПРИМЕРАХ. Но если у меня есть 2 или более различных формата деятельности, как я могу создавать примеры? Для новых компаний, которые присоединятся, мне нужно будет создавать новые примеры и так далее. Пока эта система должна быть АВТОМАТИЗИРОВАНА для заполнения БД извлеченными полями.
Как я могу это сделать? Я не уверен, что правильно объяснил. дай мне знать!
Спасибо!