Я работаю над анализатором счетов, который извлекает данные из счетов в формате pdf или изображения. Он работает с простым pdf с не табличными данными, но дает много выходных данных для обработки с pdf, который содержит таблицы. Я не могу получитьЯ работаю над общим решением для этого. Я попробовал следующие библиотеки
Invoice2Data : он основан на шаблонах. До сих пор он давал довольно хорошие результаты в формате json. Но создание шаблонов для сложных PDF-файловСодержащая динамическая таблица сложна.
Tabula : извлечение таблицы основано на координатах извлекаемой таблицы. Если данные в таблице увеличиваются, длина таблицы увеличивается, а следовательно, и координаты изменяются. Так что в этом случае это даетневерные результаты.
Pdftotext : он преобразует любые PDF-файлы в текст, но с форматом, который требует много анализа, который нам не нужен.
Aws_Textract и Elis_Rossum_Ai: выдает все данные в формате json. Но если столбец таблицы содержит несколько строк, анализ json становится затруднительным. Даже указанный размер json для разбора огромен.
Tesseract : То же, что pdftotext.Complex pdfs не могут быть проанализированы.
Кроме всего этого или с помощью комбинации вышеперечисленных библиотек кто-нибудь смог проанализировать сложные pdf-данные, пожалуйста, помогите.