Извлеките первую страницу PDF в PNG с помощью подпроцесса (pdftoppm.exe) и выполните OCR - PullRequest
0 голосов
/ 03 октября 2019

Я пытаюсь преобразовать первую страницу pdf-файлов в папке в изображение с определенным именем.

Следующие коды преобразуют все страницы в изображения с именами "out-1.png", "out-2.png ", или" out-01.png ", ...," out-13.png ", если их больше 1:

pdftoppm_path = r"C:\Program Files\poppler-0.68.0\bin\pdftoppm.exe"
os.chdir(r'C:\Users\YOUR_USERNAME\Desktop\Folder')
files = os.listdir()

content = {}

for pdf_file in files:
    subprocess.Popen('"%s" -png "%s" out' % (pdftoppm_path, pdf_file))
    text = pytesseract.image_to_string(Image.open("out-1.png"))
    content[pdf_file] = text

Поскольку некоторые PDF-файлы содержат более 10 страницследовательно, он выдаст «out-01.png» вместо «out-1.png». Есть ли легкое исправление, которое я могу назвать выходным файлом первой страницы только как что-то конкретное? В этой строке:

subprocess.Popen('"%s" -png "%s" out' % (pdftoppm_path, pdf_file))
...