У меня есть большое количество файлов, которые я хочу проанализировать.
они выглядят так: См. Пример:
http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image
http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html
Ну, я думаю, что используя Image:: OCR :: Тессеракт может быть интересным.Я думаю, что я анализирую это с Tesseract (http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod)
use Image::OCR::Tesseract 'get_ocr'; my $image = './hi.jpg'; my $text = get_ocr($image);
Это правильный синтаксис?
Вы можете скачать и скомпилировать последнюю версию tesseract .Затем вы можете написать скрипт (shell или Perl) для подачи всех ваших файлов на анализ.