С чего начать для распознавания текстовых шаблонов - на основе Java - PullRequest
3 голосов
/ 10 июня 2011

Я серьезно подумываю о программе оптического распознавания символов. Я хорошо разбираюсь в Java и хотел бы узнать о доступных библиотеках. По сути, я хочу преобразовать что-то вроде следующего в текст. Мне нужно будет дать ручное прерывание, чтобы указать шаблон. Например, мне нужно попросить пользователя отметить f в этом тексте, чтобы я знал, где происходит f.

enter image description here

Я новичок в этом, поэтому я тоже не против учиться с нуля. Нужно руководство.

Ответы [ 2 ]

2 голосов
/ 11 июня 2011

Если вы хотите использовать / посмотреть библиотеку, вы можете попробовать одобренный Google Tesseract .

2 голосов
/ 11 июня 2011

Если вы думаете о кодировании программы OCR с нуля, ознакомление с методами может оказаться полезным.Я нашел OCR Survey от 1996 , в котором рассматриваются некоторые популярные методики полтора десятилетия назад.Чтение, которое может быть полезным;отследить статьи, которые он цитирует, или документы, на которые он ссылается.

Обычно процесс происходит следующим образом:

find text
find characters in the text
extract features from the characters found
do pattern matching
report suspected character

В то время как получение пользователем комментариев к тексту - это весело и увлекательно, найти коллекцию почеркауже аннотированный может сэкономить вам много времени, так что вы можете сосредоточиться на основных моментах выполнения OCR, а не на создании собственной базы данных аннотированного текста.

Чтобы начать с более простой задачи, вы могли быхочу рассмотреть вопрос о создании системы для обнаружения рукописных цифр.USPS произвела корпус для разработки систем, чтобы сделать это для обработки почтового индекса.По этой ссылке я нашел быстрый поиск.

...