Я пытаюсь использовать приведенный ниже код для извлечения текста из изображений PDF-файла.Файл PDF представляет собой документ контракта, который является отсканированной копией контракта.Все страницы в файле PDF являются изображениями.
Когда я пытался использовать приведенный ниже код для извлечения данных, я получаю сообщение об ошибке, в котором говорится, что он не может прочитать файл / не может идентифицировать файл изображения.
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
# Simple image to string
#print(pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf')))
Traceback (последний последний вызов):
File "C:\Users\Administrator\eclipse-workspace\tesseract\test\greetings.py", line 18, in <module>
print(pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf')))
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\PIL\Image.py", line 2622, in open
% (filename if filename else fp))
OSError: cannot identify image file 'C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf'
Пожалуйста, помогите мне, как поступить