Большинство механизмов OCR справятся с этой ситуацией достаточно хорошо. На самом деле механизмы распознавания не смущаются, если на странице есть только один шрифт, который можно распознать. Странно, но верно в моем опыте.
Если механизм распознавания может в первую очередь прочитать ваш шрифт, я бы просто использовал его и не беспокоился об этом. Есть лучшие варианты для улучшения распознавания.
Многие механизмы распознавания позволяют вам установить некоторые параметры распознавания, чтобы помочь улучшить распознавание, такое как фиксированная ширина или пропорциональная, с засечками или без засечек, машинная или ручная печать. Вы также можете выбрать подмножество символов, таких как прописные или цифры только для значительного улучшения результатов. То есть если у вас только числовые символы, то символ 0 (ноль) никогда не может быть перепутан с 'O' или 'o' или 'Ø'. Вы найдете, что эти подсказки будут более эффективными, чем возможность выбрать точный тип шрифта для OCR.
Другие движки позволят вам обучить ваш движок OCR работе с новыми шрифтами, и это значительно поможет, если у вас странный шрифт.
Если качество изображения хорошее, а шрифты чистые и приличного размера, я бы порекомендовал использовать Tesseract OCR от Google и OCROpus как , предложенное Майклом Миором . Это бесплатно и хорошо работает на чистый и понятный текст. Если текст немного сложен, то, безусловно, есть лучшие механизмы распознавания, такие как ABBYY, Prime Recognition, Omnipage и многие другие, хотя они будут стоить денег.