Я пытаюсь следить за этим блогом, пытаясь извлечь текст из PDF-файла счета. Мое извлечение текста требует извлечения указанных c полей счета.
https://kaijento.github.io/2017/03/27/pdf-scraping-gwinnetttaxcommissioner.publicaccessnow.com/#pdftotext
Я пробовал pdfminer, textract, но все они извлекают текст в беспорядке, и после этого трудно извлечь текст.
Я столкнулся с загрузкой пакета Poppler ниже:
https://poppler.freedesktop.org/releases.html
Похоже, это файл .tar. И не пакет python.
Не уверен, как использовать этот файл .tar для извлечения пакета и использовать его в Python.
Любые предложения о том, как установить это на мою ма c, а затем использовать ее программно в python, чтобы запустить через нее несколько файлов PDF для извлечения данных.