У меня есть следующее изображение: ![enter image description here](https://i.stack.imgur.com/MO1Xz.jpg)
Когда я звоню в tesseract с -l eng+rus
(или -l rus+eng
), я получаю такой результат:
Повар спрашивает повара - 200 ВОВ!
Как видите, русская часть текста распознается нормально, а рублевая часть неверна, потому что Тессеракт считает, что это русский текст, насколько я понимаю. Хотя доверие к слову BOB
составляет всего 34, похоже, Тессеракт не пытается использовать английский. Есть ли способ исправить это, кроме разделения этого текста на две группы и запуска Tesseract отдельно для них? (Я знаю, что вторая часть, если всегда английская, но первая может быть английской или русской).
P.S. Я пытался использовать обученные данные кириллицы (Cyrillic.traineddata), но результат почти такой же (Повар спрашивает повара - 200 ВЏВ!
)