Читать текст из указанной c области PDF в Python - PullRequest
0 голосов
/ 09 мая 2020

У меня есть несколько файлов PDF, в которых весь текст размещен в тех же местах PDF. Итак, чтобы легко идентифицировать текст (например, адресная строка, название продукта, получатель и т. Д. c), я хочу читать каждую область PDF отдельно, а не читать весь текст, а затем использовать методы обработки строк. Однако я не могу найти хороших библиотек для извлечения текста из pdf по местам размещения. Эта библиотека выглядит многообещающей, но кажется сложной и не имеет хорошей документации для этого (Python читать часть страницы pdf ).

Мой PDF-файл примерно такой, где каждая буква обозначает текстовый блок (немного менее симметричный:

A | B
-   -
C | D
-----
  E
-----
  F
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...