OCR-Engine Tesseract: как автоматизировать распознавание текста на большом количестве файлов - PullRequest
0 голосов
/ 28 мая 2011

У меня есть большое количество файлов, которые я хочу проанализировать.

они выглядят так: См. Пример:

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html

Ну, я думаю, что используя Image:: OCR :: Тессеракт может быть интересным.Я думаю, что я анализирую это с Tesseract (http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod)

use Image::OCR::Tesseract 'get_ocr';

my $image = './hi.jpg';

my $text = get_ocr($image);

Это правильный синтаксис?

1 Ответ

0 голосов
/ 19 октября 2011

Вы можете скачать и скомпилировать последнюю версию tesseract .Затем вы можете написать скрипт (shell или Perl) для подачи всех ваших файлов на анализ.

...