Улучшение Tesseract OCR Результат отсканированного изображения с водяным знаком - PullRequest
0 голосов
/ 05 июля 2019

Я запускаю процесс оцифровки документов. У нас есть много отсканированных изображений, в которых водяной знак размещен на документе под углом 45 градусов. Тем не менее, он не слишком отмечен, а лежит под текстом. Оцифрованные документы довольно старые, поэтому чернила поблекли.

Теперь проблема в том, что когда я запускаю отсканированное изображение через tesseract ocr, он ничего не распознает по линиям на водяном знаке и тем, что идет после водяного знака.

Например, вот часть исходного изображения, которое мы используем.

Part of Scanned Page

Команда Tesseract OCR

tesseract scan.gif scan_text

Результат Тессеракта

ca

Tesseract OCR Не распознает General и December 2016 , которые следуют после водяного знака. Я провел некоторые исследования и провел манипуляции с изображениями с помощью imagemagick, но не могу придумать, как улучшить вывод текста.

...