Установка Poppler для извлечения текста в PDF - PullRequest
0 голосов
/ 23 апреля 2020

Я пытаюсь следить за этим блогом, пытаясь извлечь текст из PDF-файла счета. Мое извлечение текста требует извлечения указанных c полей счета.

https://kaijento.github.io/2017/03/27/pdf-scraping-gwinnetttaxcommissioner.publicaccessnow.com/#pdftotext

Я пробовал pdfminer, textract, но все они извлекают текст в беспорядке, и после этого трудно извлечь текст.

Я столкнулся с загрузкой пакета Poppler ниже:

https://poppler.freedesktop.org/releases.html

Похоже, это файл .tar. И не пакет python.

Не уверен, как использовать этот файл .tar для извлечения пакета и использовать его в Python.

Любые предложения о том, как установить это на мою ма c, а затем использовать ее программно в python, чтобы запустить через нее несколько файлов PDF для извлечения данных.

Ответы [ 2 ]

0 голосов
/ 23 апреля 2020

Используйте subprocess для вызова программы pdftotext из инструментов xpdf. Вы можете найти ms- windows версии этих инструментов на https://www.xpdfreader.com/download.html. Получите «Инструменты командной строки Xpdf».

Я использую его так (python 3.7):

import subprocess as sp

def pdftotext(path):
    """
    Generate a text rendering of a PDF file in the form of a list of lines.
    """
    args = ['pdftotext', '-layout', path, '-']
    cp = sp.run(
      args, stdout=sp.PIPE, stderr=sp.DEVNULL,
      check=True, text=True
    )
    return cp.stdout
0 голосов
/ 23 апреля 2020

Вы можете попробовать попплер для python здесь: https://pypi.org/project/python-poppler-qt5/

...