Я думаю, что эта проблема связана только с Tesseract 4, который поставляется с поддержкой LSTM.Поскольку я использую 64-разрядную систему Windows, я скачал 64-разрядный исполняемый файл Windows отсюда - https://github.com/UB-Mannheim/tesseract/wiki
Он имеет следующие режимы механизма распознавания:
- 0 Только устаревший движок.
- 1 Нейронные сети только движок LSTM.
- 2 Legacy + движки LSTM.
- 3 По умолчанию, в зависимости от того, что доступно.
Работает со всеми режимами, кроме 2 .
При запуске с --oem 1
tesseract --oem 1 1.jpg 1
Результат:
Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 561
Detected 5 diacritics
и создает файл 1.txt с соответствующим результатом распознавания.
При запуске с --oem 2
tesseract --oem 2 1.jpg 1
Результат:
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
и никакой вывод не генерируется.
Я думал, что ошибка будет с языковой установкой, но
tesseract --list-langs
, который дал мнеследующий результат
List of available languages (2):
eng
osd
Я даже вручную проверил папку tessdata , вот скриншот того же
, который ясно говорит, что у меня уже есть eng language.
Может кто-нибудь помочь мне с точной проблемой, которая запрещает мне использовать режим Legacy + LSTM engine (--oem 2).