Я пытаюсь преобразовать первую страницу pdf-файлов в папке в изображение с определенным именем.
Следующие коды преобразуют все страницы в изображения с именами "out-1.png", "out-2.png ", или" out-01.png ", ...," out-13.png ", если их больше 1:
pdftoppm_path = r"C:\Program Files\poppler-0.68.0\bin\pdftoppm.exe"
os.chdir(r'C:\Users\YOUR_USERNAME\Desktop\Folder')
files = os.listdir()
content = {}
for pdf_file in files:
subprocess.Popen('"%s" -png "%s" out' % (pdftoppm_path, pdf_file))
text = pytesseract.image_to_string(Image.open("out-1.png"))
content[pdf_file] = text
Поскольку некоторые PDF-файлы содержат более 10 страницследовательно, он выдаст «out-01.png» вместо «out-1.png». Есть ли легкое исправление, которое я могу назвать выходным файлом первой страницы только как что-то конкретное? В этой строке:
subprocess.Popen('"%s" -png "%s" out' % (pdftoppm_path, pdf_file))