Как добавить новый язык в тессеракт и использовать его? - PullRequest
0 голосов
/ 06 июня 2019

Я хочу читать только цифры. Так как tesseract 4.0 не поддерживает белый список, я скачал файл tessdata от Shreeshrii, который поддерживает только чтение цифр. https://github.com/Shreeshrii/tessdata_shreetest

Я копирую и вставляю все файлы в Program Files (x86) / Tesseract-OCR / tessdata

Но, когда я попробовал это в моем коде,

text = pytesseract.image_to_string (img, lang = 'digit_comma', config = 'OEM_LSTM_ONLY')

показывает ошибку.

pytesseract.pytesseract.TesseractError: (1, «Ошибка открытия файла данных C» \ Program Files (x86) \ Tesseract-OCR \ digit.traineddata. Убедитесь, что для переменной среды TESSDATA_PREFIX установлена ​​папка «tessdata». Ошибка). loading language \ 'digit \' Tesseract не может загрузить ни один язык!

Я проверил, что это работает.

text = pytesseract.image_to_string (img, lang = 'eng', config = 'OEM_LSTM_ONLY')

и если я наберу "tesseract --list-langs" на cmd, он показывает все добавленные langs от Shreeshrii.

как я могу заставить данные Shreeshrii работать в моем коде?

обновление

Я обнаружил, что моя версия tesseract - бета-версия 4.0.0, а данные Shreeshrii относятся только к версии 4.0.0. Я переустановил tesseract до версии 4.0.0, и это сработало.

...