Вы можете попытаться пойти по другому пути:
Проверьте, можете ли вы сконфигурировать сканер (сканеры) для прямого сканирования в PDF и выполнения OCR на лету.Сканеры Lexmark могут сделать это.Это создает PDF с возможностью выбора и поиска текста.Это, в свою очередь, может быть извлечено с помощью библиотеки чтения PDF.
В качестве альтернативы вы можете взглянуть на http://www.abbyy.com/ и посмотреть, получите ли вы лучшие результаты.
Если этоплохие варианты, вы можете систематически разбивать вашу проблему:
1. Является ли проблема качества изображения отсканированных изображений проблемой?Если это так, то это должно быть исправлено в первую очередь.Ваше решение для оптического распознавания текста может зависеть от разрешения, контрастности и цвета.
2. Это программное обеспечение для распознавания текста?Возьмите легко читаемый документ и посмотрите, не ошибается ли программное обеспечение OCR.Если это так, то вы знаете, что вам нужно найти лучшее программное обеспечение для оптического распознавания символов.
3. Если качество вашего документа удовлетворительное, а программное обеспечение для оптического распознавания символов имеет высокий уровень успеха при расшифровке разборчивого документа, то вы можете рассмотреть исключения, которыене работают, и решайте их в каждом конкретном случае.
Если причиной проблемы являются пятна и фоновые изображения на документах, возможно, вы захотите найти способы избежать этого или очистить их с помощью изображения.программное обеспечение для обработки, которое предоставляет API.