У меня есть несколько файлов PDF, в которых весь текст размещен в тех же местах PDF. Итак, чтобы легко идентифицировать текст (например, адресная строка, название продукта, получатель и т. Д. c), я хочу читать каждую область PDF отдельно, а не читать весь текст, а затем использовать методы обработки строк. Однако я не могу найти хороших библиотек для извлечения текста из pdf по местам размещения. Эта библиотека выглядит многообещающей, но кажется сложной и не имеет хорошей документации для этого (Python читать часть страницы pdf ).
Мой PDF-файл примерно такой, где каждая буква обозначает текстовый блок (немного менее симметричный:
A | B
- -
C | D
-----
E
-----
F