Как Tesseract OCR обнаруживает языки? - PullRequest
0 голосов
/ 07 августа 2020

Учитывая, что

  • Обнаружение текста Tesseract является общим c (не указано c для любого языка)
  • Распознаватели текста (на основе CRNN LSTM) являются языковыми -специфическая c (то есть мы устанавливаем модели для требуемых языков вручную)

Как Tesseract узнает на основе обнаруженной ограничивающей рамки, распознаватель какого языка запустить? Или он запускает все средства распознавания всех языков, которые мы указываем, и выбирает результат с максимальной уверенностью?

Я искал столько, сколько мог, но нигде не нашел подсказок. Даже это не помогло: Создание многоязычного движка Tesseract OCR

Изменить: Хорошо, я только что наткнулся на эту реализацию в Tesseract: Комбинированное определение ориентации и сценария с использованием Tesseract

Итак, если это модуль, отвечающий за определение языка

  • Пожалуйста, объясните, как он интегрируется с детекторным модулем Tesseract ?
  • Этот модуль запускается для каждого обнаруженного слова или для всего документа?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...