Введение в OCR - PullRequest
       32

Введение в OCR

6 голосов
/ 01 мая 2011

Кто-то дал мне полный набор удивительной информации. Это 200-мегабайтные изображения отсканированных объявлений, которые датируются 40-ми годами. Я хочу оцифровать это, но я ничего не знаю об оптическом распознавании. Некоторые из ранних материалов едва читаемы человеком, не говоря уже о машине. Это также на иврите.

Я ищу совет о том, как подойти к этому. Хорошее предложение о книгах, статьях, библиотеках кодов или программном обеспечении (все они должны быть свободно доступны в Интернете). Я хорошо знаю C ++ и Python и могу выбрать другой язык, если это необходимо.

Спасибо.

1 Ответ

6 голосов
/ 01 мая 2011

Это звучит как отличная задача для Python, используя библиотеку OCR. Быстрый поиск в Google показал pytesser :

PyTesser - это модуль оптического распознавания символов для Python. Он принимает в качестве входных данных изображение или файл изображения и выводит строку.

PyTesser использует механизм распознавания текста Tesseract , преобразующий изображения в принятый формат и вызывающий исполняемый файл Tesseract в качестве внешнего скрипта. Исполняемый файл Windows предоставляется вместе со скриптами Python. Скрипты должны работать и в других операционных системах.

...

Пример использования

>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...