Я запускаю процесс оцифровки документов. У нас есть много отсканированных изображений, в которых водяной знак размещен на документе под углом 45 градусов. Тем не менее, он не слишком отмечен, а лежит под текстом. Оцифрованные документы довольно старые, поэтому чернила поблекли.
Теперь проблема в том, что когда я запускаю отсканированное изображение через tesseract ocr, он ничего не распознает по линиям на водяном знаке и тем, что идет после водяного знака.
Например, вот часть исходного изображения, которое мы используем.
![Part of Scanned Page](https://i.stack.imgur.com/yjkBe.gif)
Команда Tesseract OCR
tesseract scan.gif scan_text
Результат Тессеракта
ca
Tesseract OCR Не распознает General и December 2016 , которые следуют после водяного знака. Я провел некоторые исследования и провел манипуляции с изображениями с помощью imagemagick, но не могу придумать, как улучшить вывод текста.