Параметры Tesseract и предварительная обработка изображений - PullRequest
0 голосов
/ 28 сентября 2019

Изображение для OCR

Уважаемое сообщество, я пытаюсь сделать некоторые ocr.
Я уже предварительно обработал изображение много (unskew, обрезать ...)
Теперь я могу читать цифры без проблем
Но я не могу получить тессеракт, дающий мне значимый результат.

Нажмите на ссылку вверху, чтобы увидеть изображение, которое я пытаюсь распознать

Есть ли дополнительная обработка, которую я пропускаю?
Или я плохо называю tesseract?

Я пытался без вариантов или с этим:

config = ('--psm 13 -c tessedit_char_whitelist=0123456789')

Так что, если у вас есть предложения.

С уважением!

1 Ответ

0 голосов
/ 28 сентября 2019

Вы можете задать три важных флага для работы tesseract: -l, --oem и --psm.

  • Флаг -l контролирует языквходной текст.

  • Аргумент --oem или режим OCR Engine управляет типом алгоритма, используемым Tesseract.

  • The --psm управляет автоматическим режимом сегментации страницы, используемым Tesseract.

для получения опций:

использованиеэти опции как это config = ("-l eng --oem 1 --psm 7")

...