Привет. Я пытаюсь прочитать отчеты о медицинских тестах, в которых есть отсканированные pdf-файлы. Вот код, который я хочу сделать в своем коде дополнительно:
1 - если в Scan PDF существует определенный текст, удалите стр.
2 - если Человеческое лицо в Scan PDF, удалите страницу
import os
import io
import glob
from PIL import Image
import pytesseract
from wand.image import Image as wi
import csv
import gc
import ctypes
print (ctypes.sizeof(ctypes.c_voidp))
# Install Image Magica and Ghost script
# Get
# Check if folder is there if not create
if not os.path.exists('Output_Files'):
os.makedirs('Output_Files')
imgBlobs=[]
extracted_text=[]
def Get_text_from_image(pdf_path):
pdf=wi(filename=pdf_path,resolution=300)
pdfImg=pdf.convert('jpeg')
imgBlobs=[]
extracted_text=[]
for img in pdfImg.sequence:
page=wi(image=img)
imgBlobs.append(page.make_blob('jpeg'))
for imgBlob in imgBlobs:
im=Image.open(io.BytesIO(imgBlob))
text=pytesseract.image_to_string(im,lang='eng')
extracted_text.append(text)
return (extracted_text)
print(Get_text_from_image('sample.jpg))