Question

Привет. Я пытаюсь прочитать отчеты о медицинских тестах, в которых есть отсканированные pdf-файлы. Вот код, который я хочу сделать в своем коде дополнительно:

1 - если в Scan PDF существует определенный текст, удалите стр.

2 - если Человеческое лицо в Scan PDF, удалите страницу

import os
import io
import glob
from PIL import Image
import pytesseract
from wand.image import Image as wi
import csv
import gc
import ctypes
print (ctypes.sizeof(ctypes.c_voidp))


# Install Image Magica and Ghost script
# Get
# Check if folder is there if not create
if not os.path.exists('Output_Files'):
    os.makedirs('Output_Files')

imgBlobs=[]
extracted_text=[]

def Get_text_from_image(pdf_path):
    pdf=wi(filename=pdf_path,resolution=300)
    pdfImg=pdf.convert('jpeg')
    imgBlobs=[]
    extracted_text=[]

    for img in pdfImg.sequence:
        page=wi(image=img)
        imgBlobs.append(page.make_blob('jpeg'))

    for imgBlob in imgBlobs:
        im=Image.open(io.BytesIO(imgBlob))
        text=pytesseract.image_to_string(im,lang='eng')
        extracted_text.append(text)

    return (extracted_text)

print(Get_text_from_image('sample.jpg))

Python Проверьте, существует ли человеческое лицо на изображении

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Python Проверьте, существует ли человеческое лицо на изображении

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы