У меня есть коллекция из 500 файлов PDF, которые в основном являются счетами, квитанциями или контрактными документами на 1 странице. Эти файлы имеют логотипы компании, текстовую информацию, таблицы, числовые значения и т. Д. c. Эти PDF-файлы обычно содержат полуструктурированные данные.
Постановка проблемы: Мне нужно извлечь из этих файлов информацию метаданных. Метаданные, такие как «Название компании», могут располагаться в верхней части страницы или иногда в нижней части адресной строки. «Адрес компании» - обычно расположен внизу; «Дата» - просто сказка.
Ввод -> PDF или OCR XML файл
Вывод -> Название компании = "XYZ"; Адрес компании = "ABCEDF"; Дата = "ХХ-ХХ-ХХ" (просто образец, а не точный)
Что я сделал: я передал эти PDF-файлы в OCR Тессеракта, который дал мне XML выходной файл. Эти XML файлы содержат посимвольные координаты, которые являются довольно точными.
Что неосуществимо: Аннотировать эти PDF как изображения и использовать их в качестве обучающих данных для модели обнаружения Объекта, чтобы извлечь координаты вероятных метаданных. расположение данных.