Тессеракт 4 с двумя языками - PullRequest
3 голосов
/ 20 мая 2019

У меня есть следующее изображение: enter image description here

Когда я звоню в tesseract с -l eng+rus (или -l rus+eng), я получаю такой результат:

Повар спрашивает повара - 200 ВОВ!

Как видите, русская часть текста распознается нормально, а рублевая часть неверна, потому что Тессеракт считает, что это русский текст, насколько я понимаю. Хотя доверие к слову BOB составляет всего 34, похоже, Тессеракт не пытается использовать английский. Есть ли способ исправить это, кроме разделения этого текста на две группы и запуска Tesseract отдельно для них? (Я знаю, что вторая часть, если всегда английская, но первая может быть английской или русской).

P.S. Я пытался использовать обученные данные кириллицы (Cyrillic.traineddata), но результат почти такой же (Повар спрашивает повара - 200 ВЏВ!)

1 Ответ

0 голосов
/ 02 июня 2019

Хотя вы используете правильный синтаксис для многоязычной идентификации, но результаты ясно показывают, что «BOB» неправильно классифицируется.Сначала вы запускаете этот текст только в режиме на английском языке и видите результаты, он, скорее всего, будет читать BOB как правильный текст.Затем после этой проверки измените модель по умолчанию, используемую для распознавания текста eng.Надеюсь, он внесет такие же коррективы.А если нет, то вам придется мириться с этими результатами, потому что тессеракт не создан, чтобы дать 100% результатов.

...