читать текстовый документ из отсканированного изображения - PullRequest
1 голос
/ 25 марта 2011

Есть ли способ получить текст из отсканированного документа в формате jpg, jpeg или в любом другом формате?Я использую ruby ​​в качестве языка программирования.Но я думаю, что если я смогу получить тексты с некоторой помощью из других языков программирования, это не будет большой проблемой для интеграции.

Спасибо.

Ответы [ 3 ]

2 голосов
/ 25 марта 2011

Да, вы можете использовать библиотеку OCR.Есть дополнительные подробности на https://stackoverflow.com/questions/1085/free-ocr-library.

Вкратце, вы можете рассмотреть возможность использования tessnet (http://www.pixel -technology.com / freeware / tessnet2 / ).

1 голос
/ 25 марта 2011

Эта технология называется оптическим распознаванием символов (OCR).

Для программирования задайте вопрос , который рекомендует tesseract-ocr .

OCR для рубина?проверьте этот вопрос .

Если это всего лишь пара изображений, вот сайт, который предположительно делает это бесплатно .

0 голосов
/ 25 марта 2011

OCR Terminal http://www.ocrterminal.com был лучшим (наиболее точным) бесплатным инструментом из дюжины, которые я использовал. Особенно хорошо это работает с отформатированными (табличными) данными.

...