У меня есть каталог, содержащий файлы PDF. Я написал код, который выполняет OCR, когда вы передаете имя файла объекту класса wand.image. В настоящее время я хочу сделать цикл по каталогу файлов PDF и сгенерировать текстовый файл OCR для каждого файла PDF и сохранить его в некотором каталоге. Код, который я написал до сих пор, выглядит следующим образом:
import io
from PIL import Image
import pytesseract
from wand.image import Image as wi
pdf = wi(filename = r"D:\files\aba7d525-04b8-4474-a40d-e94f9656ed42.pdf", resolution = 300)
pdfImg = pdf.convert('jpeg')
imgBlobs = []
for img in pdfImg.sequence:
page = wi(image = img)
imgBlobs.append(page.make_blob('jpeg'))
extracted_text = []
for imgBlob in imgBlobs:
im = Image.open(io.BytesIO(imgBlob))
text = pytesseract.image_to_string(im, lang = 'eng')
extracted_text.append(text)
print(extracted_text[0])
Любые предложения о том, как я могу сгенерировать .txt файлы из OCR'd PDF