Читайте данные из PDF, используя java - PullRequest
0 голосов
/ 12 февраля 2020

У меня есть счет в формате PDF. Содержит такие поля, как

Invoice number
Customer Name
Customer Address
Account number
Invoice Date 
Amount Due
Discount etc.

Мне нужно извлечь все поля из этого PDF (пары значений ключей) и отправить вывод в виде JSON.

  1. Tried Apache PDFBox. Это дает мне весь текст из PDF в формате строки. Это выглядит громоздким, чтобы правильно прочитать все пары ключ-значение из этого.

  2. Tried AWS Textract, изначально все выглядело нормально. Он читает данные и выдает пары ключ-значение, но не на 100% точен. Он не дает все поля для некоторых счетов, а также дает неправильные значения для некоторых полей.

Пожалуйста, предложите мне эффективное решение для этого. Рад тоже взглянуть на лицензионные инструменты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...