Я пытаюсь извлечь определенный фрагмент текста (обведено кружком) из отсканированного изображения свидетельства транспортного средства , используя Tesseract 4.0.
Перед отправкой в Tesseract я обрабатываю изображение с помощью следующей команды ImageMagick, которую я извлек из различных других сообщений в сети:
magick -density 600 certificate.pdf -colorspace gray -fill black -blur 5 \
-fuzz 10% +opaque "#FFFFFF" -depth 8 -strip -background white -alpha off \
-level 0 -trim temp.tiff
Пока что эта команда приблизила меня к моейожидаемый результат (G79705338
), однако у меня все еще возникают проблемы с получением Тессерактом правильного чтения текста.Я обычно получаю что-то вроде 679705338
, 879705338
или 67970533B
.
Похоже, Тессеракт читает шаблон декоративной рамки как беспорядок букв и диакритических знаков, которые, кажется, мешают ейчтение фактического печатного текста, потому что я попытался вручную обрезать границу, и Тессеракт смог прочитать текст почти без ошибок.
Есть ли какой-нибудь способ, которым я могу программно удалить / игнорировать границу между IM и Tesseractнаборы инструментов?Я был бы признателен за всю помощь, которую я могу получить;Я только что передал это задание на работе, не имея предыдущего опыта в обработке изображений или оптическом распознавании символов, и я определенно не в себе!