Если вы думаете о кодировании программы OCR с нуля, ознакомление с методами может оказаться полезным.Я нашел OCR Survey от 1996 , в котором рассматриваются некоторые популярные методики полтора десятилетия назад.Чтение, которое может быть полезным;отследить статьи, которые он цитирует, или документы, на которые он ссылается.
Обычно процесс происходит следующим образом:
find text
find characters in the text
extract features from the characters found
do pattern matching
report suspected character
В то время как получение пользователем комментариев к тексту - это весело и увлекательно, найти коллекцию почеркауже аннотированный может сэкономить вам много времени, так что вы можете сосредоточиться на основных моментах выполнения OCR, а не на создании собственной базы данных аннотированного текста.
Чтобы начать с более простой задачи, вы могли быхочу рассмотреть вопрос о создании системы для обнаружения рукописных цифр.USPS произвела корпус для разработки систем, чтобы сделать это для обработки почтового индекса.По этой ссылке я нашел быстрый поиск.