После множества разных шрифтов и OCR-движков Я стремлюсь получить лучшие результаты, используя Consolas . Это моноширинный шрифт, подобный OCR-A, но легче читаемый для людей. Consolas входит в состав нескольких продуктов Microsoft.
Существует также открытый исходный код шрифт Inconsolata , на который влияет Consolas. Inconsolata - хорошая замена для Consolas, особенно с учетом деталей лицензирования.
В моих тестах числа и пробелы в шрифте Calibri не всегда распознавались должным образом. OCR-A дал много ошибок чтения. Я не давал MIRC попробовать, так как большинству людей его нелегко прочитать.
Примечание : tesseract требует много испытаний и тонкой настройки, чтобы быть надежным. В нашем случае мы перешли на коммерчески лицензированный механизм OCR (ABBYY), тем более что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.
Обновление: 2017 31 января - изменено ' на основе Consolas ' на ' под влиянием Consolas ' из-за потенциальных проблем с авторским правом.