Итак, я пытаюсь преобразовать файл PDF в изображение, чтобы я мог прочитать текст.Прошу прощения, если это тривиальный вопрос, потому что я новичок в этом.Вот как выглядит мой код:
import io
from PIL import Image
import pytesseract
from wand.image import Image as wi
pdf = wi(filename="p1.pdf",resolution=300)
pdfImage = pdf.convert('jpeg')
imageBlobs = []
for img in pdfImage.sequence:
imgPage = wi(image = img)
imageBlobs.append(imgPage.make_blob('jpeg'))
recognised_text = []
for imgBlob in imageBlobs:
im = Image.open(io.BytesIO(imgBlob))
text = pytesseract.image_to_string(im, lang = 'eng')
recognised_text.append(text)
print(recognised_text)
И, к сожалению, это вывод, который я получаю:
. / Base / gsicc_manage.c: 1244: gsicc_open_search (): не удалось найти srgb.icc + ./base/gsicc_manage.c:1130: gsicc_get_profile_handle_file (): не удалось создать профиль ICC ./base/gsicc_manage.c:1244: gsicc_open_search (): не удалось найти srgb.icc + ./base/gsc..Ошибка профиля ./base/gsicc_manage.c:1244: gsicc_open_search (): Не удалось найти srgb.icc + ./base/gsicc_manage.c:1130: gsicc_get_profile_handle_file (): создание профиля ICC не удалось
Любые идеина что я должен делать?Я очень новичок в этом, и я боролся с этой проблемой.