Удалите декоративную рамку с помощью ImageMagick перед распознаванием текста с помощью Tesseract - PullRequest
0 голосов
/ 29 мая 2019

Я пытаюсь извлечь определенный фрагмент текста (обведено кружком) из отсканированного изображения свидетельства транспортного средства , используя Tesseract 4.0.

Перед отправкой в ​​Tesseract я обрабатываю изображение с помощью следующей команды ImageMagick, которую я извлек из различных других сообщений в сети:

magick -density 600 certificate.pdf -colorspace gray -fill black -blur 5 \
-fuzz 10% +opaque "#FFFFFF" -depth 8 -strip -background white -alpha off \
-level 0 -trim temp.tiff

Пока что эта команда приблизила меня к моейожидаемый результат (G79705338), однако у меня все еще возникают проблемы с получением Тессерактом правильного чтения текста.Я обычно получаю что-то вроде 679705338, 879705338 или 67970533B.

Похоже, Тессеракт читает шаблон декоративной рамки как беспорядок букв и диакритических знаков, которые, кажется, мешают ейчтение фактического печатного текста, потому что я попытался вручную обрезать границу, и Тессеракт смог прочитать текст почти без ошибок.

Есть ли какой-нибудь способ, которым я могу программно удалить / игнорировать границу между IM и Tesseractнаборы инструментов?Я был бы признателен за всю помощь, которую я могу получить;Я только что передал это задание на работе, не имея предыдущего опыта в обработке изображений или оптическом распознавании символов, и я определенно не в себе!

...