Я хочу читать только цифры. Так как tesseract 4.0 не поддерживает белый список, я скачал файл tessdata от Shreeshrii, который поддерживает только чтение цифр.
https://github.com/Shreeshrii/tessdata_shreetest
Я копирую и вставляю все файлы в Program Files (x86) / Tesseract-OCR / tessdata
Но, когда я попробовал это в моем коде,
text = pytesseract.image_to_string (img, lang = 'digit_comma', config = 'OEM_LSTM_ONLY')
показывает ошибку.
pytesseract.pytesseract.TesseractError: (1, «Ошибка открытия файла данных C» \ Program Files (x86) \ Tesseract-OCR \ digit.traineddata. Убедитесь, что для переменной среды TESSDATA_PREFIX установлена папка «tessdata». Ошибка). loading language \ 'digit \' Tesseract не может загрузить ни один язык!
Я проверил, что это работает.
text = pytesseract.image_to_string (img, lang = 'eng', config = 'OEM_LSTM_ONLY')
и если я наберу "tesseract --list-langs" на cmd,
он показывает все добавленные langs от Shreeshrii.
как я могу заставить данные Shreeshrii работать в моем коде?
обновление
Я обнаружил, что моя версия tesseract - бета-версия 4.0.0, а данные Shreeshrii относятся только к версии 4.0.0. Я переустановил tesseract до версии 4.0.0, и это сработало.