Вы можете просто предоставить изображение в качестве входных данных вместо обработки и создания выходного файла HOCR .
Попробуйте: -
from PIL import Image
import pytesseract
im = Image.open("reciept.jpg")
text = pytesseract.image_to_string(im, lang = 'eng')
print(text)
Эта программа определяет местоположение вашего изображения, которое должно быть запущено через OCR, извлекает из него текст, сохраняет его в переменной text
и распечатывает его. Если вы хотите, вы можете также хранить данные в text
в отдельном файле.
P.S .: - Изображение, которое вы пытаетесь обработать, слишком сложное по сравнению с изображениями, с которыми приходится работать тессеракту. Из-за этого вы можете получить неправильные результаты после обработки текста. Я бы определенно рекомендовал вам оптимизировать его перед использованием, например, сократить используемый набор символов, обработать изображение перед его передачей в OCR, повысить частоту дискретизации, иметь dpi более 250 и т. Д.