Tesseract 4 не смог загрузить ни один язык при использовании режима OCR Engine - «Legacy + LSTM engine» (--oem 2) - PullRequest
0 голосов
/ 15 апреля 2019

Я думаю, что эта проблема связана только с Tesseract 4, который поставляется с поддержкой LSTM.Поскольку я использую 64-разрядную систему Windows, я скачал 64-разрядный исполняемый файл Windows отсюда - https://github.com/UB-Mannheim/tesseract/wiki

Он имеет следующие режимы механизма распознавания:

  • 0 Только устаревший движок.
  • 1 Нейронные сети только движок LSTM.
  • 2 Legacy + движки LSTM.
  • 3 По умолчанию, в зависимости от того, что доступно.

Работает со всеми режимами, кроме 2 .


При запуске с --oem 1

tesseract --oem 1 1.jpg 1

Результат:

Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 561
Detected 5 diacritics

и создает файл 1.txt с соответствующим результатом распознавания.


При запуске с --oem 2

tesseract --oem 2 1.jpg 1

Результат:

Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

и никакой вывод не генерируется.


Я думал, что ошибка будет с языковой установкой, но

tesseract --list-langs

, который дал мнеследующий результат

List of available languages (2):
eng
osd

Я даже вручную проверил папку tessdata , вот скриншот того же

enter image description here

, который ясно говорит, что у меня уже есть eng language.

Может кто-нибудь помочь мне с точной проблемой, которая запрещает мне использовать режим Legacy + LSTM engine (--oem 2).

1 Ответ

3 голосов
/ 16 апреля 2019

Да, у вас есть язык eng , но только с поддержкой LSTM.Если вы хотите иметь поддержку LSTM & Legacy, вам необходимо загрузить данные из репозитория tessdata

...