Недавно я взял проект. Преобразование отсканированного PDF в PDF / слово с возможностью поиска с использованием Python tesseract.
После нескольких попыток я смог преобразовать отсканированный PDF в файлы изображений PNG, а затем я был поражен, может ли кто-нибудь помочь мне преобразовать PNGфайлы в Word / PDF с возможностью поиска. мой код прилагается
Пожалуйста, найдите прикрепленное изображение для справки.
Спасибо за вашу помощь:)
Import os
Import sys
from PIL import image
Import pytesseract
from pytesseract import image_to_string
Libpath =r'_______' #site-package
Pop_path=r'_______' #poppler dlls
Sys.path.insert(0,LibPath)
from pdf2image import convert_from_path
Pdfpath=r'_______' # PDF file directory
imgpath=r'_______' #image output path
images= convert_from_path(pdf_path = pdfpath,
dpi=500, poppler_path= pop_path)
for idx, of in enumerate (images):
pg.save(imgPath+'PDF_Page_'+'.png',"PNG")
print('{} page converted'.format(str(idx)))
try:
from PIL import image
except ImportError:
import image
import pytesseract
def ocr-core(images):
Text =
pytesseract.image_to_string(image.open(images))
return text
print(ocr_core("image path/imagename))
вот и все, я написал ..... тогда я получил несколько изображений ".PNG" ... теперь я могу преобразовать только одно изображение PNG в текст.
Как преобразовать все изображения и сохранить их в формате CSV / Word?