Я скомпилировал tesseract 5.0.0-alpha из исходного кода и перепробовал все разные режимы сегментации страницы. Я заранее знаю, что настоящий шрифт написан шрифтом DejaVu Sans Mono , поэтому я обучил модель этому шрифту (maxpages = 600) и в итоге сгенерировал модель.
, но для почему-то тессеракт пропускает. например, вот простое изображение после его предварительной обработки:
Но я продолжаю получать неправильные значения, буква l заменяется на di git 1. и фактический пробел между di git 6 до буквы l игнорируется / исчезает. Может кто-нибудь дать мне несколько советов?
Спасибо всем, я очень признателен за любую помощь!