У меня есть некоторый опыт работы с Tesseract ...
простой гугл «обучения тессеракту» показывает эту страницу:
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
где вы должны выбрать, какую версию Tesseract вы хотите обучать ..
Хотя 3 является последней версией, она совершенно новая, и поэтому люди все еще решают любые проблемы - я все еще использую версию 2.4. В любом случае, вы увидите, что есть около 9 шагов в обучении тессеракту для определенного «языка» (или того, что должно было называться «шрифтами» или «наборами символов»). Вы также можете просто использовать существующий «английский» язык - но это зависит от вашего приложения. Например, в моем приложении мне нужно было бы выполнить анализ документа и взять конкретный регион, и мне нужно было бы распечатать 13-символьную строку чисел - и мне нужна была высокая точность - и я не хотел, чтобы она читала «5» как « S 'и' 0 'как' O 'и т. Д., Поэтому было логично создать определенный «язык» моего конкретного набора шрифтов, состоящий только из символов 0..9, тогда как вам может быть все равно, если вы получите дополнительный «шум»