Попытка преобразовать файл PDF в массив изображений с помощью палочки, получая странную ошибку - PullRequest
0 голосов
/ 15 декабря 2018

Итак, я пытаюсь преобразовать файл PDF в изображение, чтобы я мог прочитать текст.Прошу прощения, если это тривиальный вопрос, потому что я новичок в этом.Вот как выглядит мой код:

 import io
from PIL import Image
import pytesseract
from wand.image import Image as wi

pdf = wi(filename="p1.pdf",resolution=300)
pdfImage = pdf.convert('jpeg')

imageBlobs = []

    for img in pdfImage.sequence:
    imgPage = wi(image = img)
    imageBlobs.append(imgPage.make_blob('jpeg'))

recognised_text = []

for imgBlob in imageBlobs:
    im =  Image.open(io.BytesIO(imgBlob))
    text = pytesseract.image_to_string(im, lang = 'eng')
    recognised_text.append(text)

print(recognised_text)

И, к сожалению, это вывод, который я получаю:

. / Base / gsicc_manage.c: 1244: gsicc_open_search (): не удалось найти srgb.icc + ./base/gsicc_manage.c:1130: gsicc_get_profile_handle_file (): не удалось создать профиль ICC ./base/gsicc_manage.c:1244: gsicc_open_search (): не удалось найти srgb.icc + ./base/gsc..Ошибка профиля ./base/gsicc_manage.c:1244: gsicc_open_search (): Не удалось найти srgb.icc + ./base/gsicc_manage.c:1130: gsicc_get_profile_handle_file (): создание профиля ICC не удалось

Любые идеина что я должен делать?Я очень новичок в этом, и я боролся с этой проблемой.

...