Howto: улучшить качество PDF перед OCR, используя C # - PullRequest
5 голосов
/ 06 июля 2011

Я создаю сервис, который отслеживает папку для отсканированных файлов. Как только файл есть, служба забирает его и преобразует в читаемый PDF. В этом процессе служба также ищет штрих-код. После этого текст извлекается и файл с его текстом сохраняется в базе данных нашего программного обеспечения. Расположение основано на штрих-коде.

Теперь для распознавания текста мы используем SDK Atalasoft (http://www.atalasoft.com/). Также в этот SDK включен распознаватель штрих-кодов.

Но в преобразованном тексте все еще есть ошибки. (Я провел несколько тестов с другими OCR-программами, но Atalasoft вышел неплохо.) Я ищу какое-то программное обеспечение (SDK-kit), которое позволяет мне улучшить качество PDF для распознавания текста.

Я тестировал Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/). Я ищу что-то подобное, но это можно реализовать в сервисе с помощью какого-то SDK-комплекта.

Кто-нибудь, кто делал это раньше, или имел подобные проблемы? Спасибо заранее!

1 Ответ

2 голосов
/ 06 июля 2011

Вы можете попытаться пойти по другому пути:
Проверьте, можете ли вы сконфигурировать сканер (сканеры) для прямого сканирования в PDF и выполнения OCR на лету.Сканеры Lexmark могут сделать это.Это создает PDF с возможностью выбора и поиска текста.Это, в свою очередь, может быть извлечено с помощью библиотеки чтения PDF.

В качестве альтернативы вы можете взглянуть на http://www.abbyy.com/ и посмотреть, получите ли вы лучшие результаты.

Если этоплохие варианты, вы можете систематически разбивать вашу проблему:
1. Является ли проблема качества изображения отсканированных изображений проблемой?Если это так, то это должно быть исправлено в первую очередь.Ваше решение для оптического распознавания текста может зависеть от разрешения, контрастности и цвета.
2. Это программное обеспечение для распознавания текста?Возьмите легко читаемый документ и посмотрите, не ошибается ли программное обеспечение OCR.Если это так, то вы знаете, что вам нужно найти лучшее программное обеспечение для оптического распознавания символов.
3. Если качество вашего документа удовлетворительное, а программное обеспечение для оптического распознавания символов имеет высокий уровень успеха при расшифровке разборчивого документа, то вы можете рассмотреть исключения, которыене работают, и решайте их в каждом конкретном случае.

Если причиной проблемы являются пятна и фоновые изображения на документах, возможно, вы захотите найти способы избежать этого или очистить их с помощью изображения.программное обеспечение для обработки, которое предоставляет API.

...