Как извлечь текст из изображений в PDF-файл с помощью Pytesseract - PullRequest
0 голосов
/ 26 сентября 2018

Я пытаюсь использовать приведенный ниже код для извлечения текста из изображений PDF-файла.Файл PDF представляет собой документ контракта, который является отсканированной копией контракта.Все страницы в файле PDF являются изображениями.

Когда я пытался использовать приведенный ниже код для извлечения данных, я получаю сообщение об ошибке, в котором говорится, что он не может прочитать файл / не может идентифицировать файл изображения.

try:
    import Image
except ImportError:
    from PIL import Image

import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

# Simple image to string
#print(pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf')))

Traceback (последний последний вызов):

  File "C:\Users\Administrator\eclipse-workspace\tesseract\test\greetings.py", line 18, in <module>
    print(pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf')))
  File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\PIL\Image.py", line 2622, in open
    % (filename if filename else fp))
OSError: cannot identify image file 'C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf'

Пожалуйста, помогите мне, как поступить

1 Ответ

0 голосов
/ 26 сентября 2018

Вы пытаетесь открыть файл PDF в виде изображения.В их документах невозможно указывать подушку, чтобы они не поддерживали чтение PDF-файла, см. https://pillow.readthedocs.io/en/5.1.x/handbook/image-file-formats.html

В любом случае вы можете преобразовать PDF-файл в изображение с помощью библиотеки pdf2image, а затем открыть его с помощью подушки и передать втессеракт.

...