Извлечение информации из PDF-счетов - PullRequest
0 голосов
/ 21 апреля 2020

У меня есть коллекция из 500 файлов PDF, которые в основном являются счетами, квитанциями или контрактными документами на 1 странице. Эти файлы имеют логотипы компании, текстовую информацию, таблицы, числовые значения и т. Д. c. Эти PDF-файлы обычно содержат полуструктурированные данные.

Постановка проблемы: Мне нужно извлечь из этих файлов информацию метаданных. Метаданные, такие как «Название компании», могут располагаться в верхней части страницы или иногда в нижней части адресной строки. «Адрес компании» - обычно расположен внизу; «Дата» - просто сказка.

Ввод -> PDF или OCR XML файл

Вывод -> Название компании = "XYZ"; Адрес компании = "ABCEDF"; Дата = "ХХ-ХХ-ХХ" (просто образец, а не точный)

Что я сделал: я передал эти PDF-файлы в OCR Тессеракта, который дал мне XML выходной файл. Эти XML файлы содержат посимвольные координаты, которые являются довольно точными.

Что неосуществимо: Аннотировать эти PDF как изображения и использовать их в качестве обучающих данных для модели обнаружения Объекта, чтобы извлечь координаты вероятных метаданных. расположение данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...