c # OCR не может распознать цифры (тессеракт 2) - PullRequest
4 голосов
/ 29 марта 2011

Я пытаюсь извлечь цифры из следующего: http://img96.imageshack.us/img96/5630/aelgg.png

Не получается, я получаю ~ взамен. Я использую Google Tesseract 2, используя C # (обертку с открытым исходным кодом C #), и теперь мне интересно, это изображение слишком дерьмовое, чтобы использовать его для распознавания текста?

Потому что imho цифры ясны.

У вас есть какой-нибудь другой механизм распознавания текста, который бы это зафиксировал?

EDIT

Я также пытался с Asprise OCR (http://asprise.com/product/ocr/selector.php), но он также не может разобрать изображение ...

Ответы [ 2 ]

7 голосов
/ 30 марта 2011

Я предлагаю изменить размер. Я увеличил эту страницу до 200% в IE, сделал снимок экрана, распечатал его в PDF и импортировал в свою программу, которая использует tessnet. Тесс прибила это! Если я не прочитал #s неправильно: -)

Хотя достоверность = 140 (менее 100 предпочтительнее, если вам интересно). Конечно, когда я попробовал оригинальный размер, я не получил ~; Я получил около 1/2 правильных букв, кучу писем и прочую фигню. Не достаточно хорошо, но лучше.

t2, похоже, любит изображения определенного размера.

Моя программа выполняет обработку, чтобы заставить это работать. Предложите использовать .net GDI + для преобразования в 32-битные с изменением размера в режиме интерполяции High Quality Bicubic. Кажется, это немного «заполняет пробелы».

Играйте с размерами, которые работают - я обнаружил, что они слишком большие или слишком маленькие, и тессеракт работает по-другому.

Обе проблемы - это предварительная обработка, это просто, и вы бы попробовали, что попробует tesseract; однако я знаю, как изменить размер и интерполировать; Я не знаю, как распознать! Так что я готов поселиться.

1 голос
/ 15 мая 2011

Разрешение вашего изображения слишком низкое - 96 точек на дюйм, возможно, это скриншот. Масштабируйте его до 300 DPI, и tessnet2 сможет его распознать.

...