Извлечение данных из счетов в формате PDF или изображения - PullRequest
2 голосов

Я работаю над анализатором счетов, который извлекает данные из счетов в формате pdf или изображения. Он работает с простым pdf с не табличными данными, но дает много выходных данных для обработки с pdf, который содержит таблицы. Я не могу получитьЯ работаю над общим решением для этого. Я попробовал следующие библиотеки

Invoice2Data : он основан на шаблонах. До сих пор он давал довольно хорошие результаты в формате json. Но создание шаблонов для сложных PDF-файловСодержащая динамическая таблица сложна.

Tabula : извлечение таблицы основано на координатах извлекаемой таблицы. Если данные в таблице увеличиваются, длина таблицы увеличивается, а следовательно, и координаты изменяются. Так что в этом случае это даетневерные результаты.

Pdftotext : он преобразует любые PDF-файлы в текст, но с форматом, который требует много анализа, который нам не нужен.

Aws_Textract и Elis_Rossum_Ai: выдает все данные в формате json. Но если столбец таблицы содержит несколько строк, анализ json становится затруднительным. Даже указанный размер json для разбора огромен.

Tesseract : То же, что pdftotext.Complex pdfs не могут быть проанализированы.

Кроме всего этого или с помощью комбинации вышеперечисленных библиотек кто-нибудь смог проанализировать сложные pdf-данные, пожалуйста, помогите.

...