Как улучшить результаты tesseract ocr на четком изображении? - PullRequest
0 голосов
/ 18 апреля 2020

Я скомпилировал tesseract 5.0.0-alpha из исходного кода и перепробовал все разные режимы сегментации страницы. Я заранее знаю, что настоящий шрифт написан шрифтом DejaVu Sans Mono , поэтому я обучил модель этому шрифту (maxpages = 600) и в итоге сгенерировал модель.

, но для почему-то тессеракт пропускает. например, вот простое изображение после его предварительной обработки:

enter image description here

Но я продолжаю получать неправильные значения, буква l заменяется на di git 1. и фактический пробел между di git 6 до буквы l игнорируется / исчезает. Может кто-нибудь дать мне несколько советов?

Спасибо всем, я очень признателен за любую помощь!

1 Ответ

0 голосов
/ 19 апреля 2020

Я использую Ubuntu 18.04 с tesseract версии 5. Я использую приведенную ниже команду и получил правильный результат. Может быть, вы можете попробовать ту же команду.

tesseract HfUmN.jpg stdout -l eng --oem 3 --psm 7 -c tessedit_char_whitelist="abcdefghijklmnopqrstuvwxyz0123456789=[], "
Warning: Invalid resolution 0 dpi. Using 70 instead.
6 l1 = [1, 2, 4, 5]
tesseract --version
tesseract 5.0.0-alpha-647-g4a00
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found OpenMP 201511
 Found libarchive 3.2.2 zlib/1.2.11 liblzma/5.2.2 bz2lib/1.0.6 liblz4/1.7.1
...