cv2 для тессеракта напрямую без сохранения - PullRequest
0 голосов
/ 27 апреля 2020
import pytesseract
from pdf2image import convert_from_path, convert_from_bytes
import cv2,numpy
def pil_to_cv2(image):
    open_cv_image = numpy.array(image)
    return open_cv_image[:, :, ::-1].copy() 


path='OriginalsFile.pdf'
images = convert_from_path(path)
cv_h=[pil_to_cv2(i) for i in images]
img_header = cv_h[0][:160,:]
#print(pytesseract.image_to_string(Image.open('test.png'))) I only found this in tesseract docs

Здравствуйте, есть ли способ прочитать img_header напрямую, используя pytesseract, не сохраняя его,

документы pytesseract

1 Ответ

0 голосов
/ 06 мая 2020

pytesseract.image_to_string () формат ввода

Как поясняется в документации pytesseract.image_to_string() требуется изображение PIL в качестве входных данных. Таким образом, вы можете легко преобразовать ваше CV-изображение в PIL-изображение, например:

from PIL import Image
... (your code)
print(pytesseract.image_to_string(Image.fromarray(img_header)))
...