Я не знаю много о Abbyy SDK. Но перед тем, как попробовать любой механизм распознавания на изображении, вы всегда должны убедиться, что ...
- ... обрезать все границы разными цветами,
- ... масштабируйте изображение, чтобы получить текст (виртуальный) размером не менее 10 пт на 300 DPI.
Я попробовал Tesseract v3.01 на вашем оригинальном образце, но ничего не нашел.
Затем я применил команду ImageMagick, чтобы обрезать границы и масштабировать изображение до 200% следующим образом:
convert \
businesscard.jpg \
-crop 440x200+30+120 \
-scale 180% \
cropped+scaled-businesscard.jpg
чтобы получить эту картинку:
Это уже позволяет командной строке Tesseract распознавать большую часть текста (она не работает на @
и .
):
tesseract b.jpg bcard && cat bcard.txt
Tesseract Open Source OCR Engine v3.01 with Leptonica
Fe/<70"
MIKE FARAG
PH 913 284 6455
EM milzeocreatefervoncom
Tw 0mil<efarag01
createfervoncom
Скорее всего, можно было бы получить показатель распознавания Тессеракта близко к 100%, если бы я ...
- ... улучшить качество изображения для целей оптического распознавания текста: увеличить контраст и преобразовать в чистые оттенки серого («бинаризация»);
- ... 'train' Tesseract для конкретного шрифта, используемого в этом документе.
Полагаю, что вы можете облегчить жизнь Эбби с помощью аналогичных мер ...