Я читаю файл PDF и преобразую каждую страницу в изображения и сохраняю. Далее мне нужно запустить OCR для каждого изображения, идентифицировать текст каждого изображения и записать его в новый текстовый файл.
Я знаюКак получить весь текст из всех изображений и выгрузить его в один текстовый файл.
pdf_dir = 'dir path'
os.chdir(pdf_dir)
for pdf_file in os.listdir(pdf_dir):
if pdf_file.endswith(".pdf"):
pages = convert_from_path(pdf_file, 300)
pdf_file = pdf_file[:-4]
for page in pages:
page.save("%s-page%d.jpg" % (pdf_file,pages.index(page)), "JPEG")
img_dir = 'dir path'
os.chdir(img_dir)
docs = []
for img_file in os.listdir(img_dir):
if img_file.endswith(".jpg"):
texts = str(((pytesseract.image_to_string(Image.open(img_file)))))
text = texts.replace('-\n', '')
print(texts)
img_file = img_file[:-4]
for text in texts:
file = img_file + ".txt"
# create the new file with "w+" as open it
with open(file, "w+") as f:
for texts in docs:
# write each element in my_list to file
f.write("%s" % str(texts))
print(file)
Мне нужно написать один текстовый файл, соответствующий каждому изображению, которое распознало текст в этом изображении.Все файлы, которые сейчас записаны, пусты, и я не уверен, что происходит не так.Может кто-нибудь помочь?