Tesseract-Job: как разобрать изображение, чтобы извлечь из него информацию - PullRequest
0 голосов
/ 25 июля 2011

доброе утро.

прежде всего. Это самое впечатляющее сообщество, которое я когда-либо видел!

Ну, несколько дней я размышлял о трехсторонней работе

а. получение б. разбор с. хранение нескольких страниц.

Два дня назад я думал, что получение страниц будет основной задачей. Нет, это не тот случай - я думаю, что работа парсера была бы героической задачей. Каждая из страниц, предназначенных для анализа, является png-изображением.

Так что вопрос - после получения всех их. Как их разобрать !? Это кажется проблемой. Угадайте, что есть некоторые Perl-модули, которые могут помочь в этом ...

Что ж, я думаю, что эту работу можно выполнить только с помощью встроенного OCR! Вопрос: есть ли Perl-модуль, который можно использовать здесь для поддержки этой задачи:

Кстати: см. Страницы результатов.

see an image

BTW ;: и, как я думал, я могу найти все 790 страниц результатов в определенном диапазоне между Id = 0 и Id = 100000 Я думал, что я могу пойти по пути с петлей:

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=10579&InterfaceLanguage=1&Type=Html

Я думал, что смогу пойти по Perl-Way, но я не очень уверен: Я пытался использовать LWP :: UserAgent для тех же URL-адресов [см. Ниже] с разными аргументами запроса, и мне интересно, если LWP :: UserAgent предоставляет способ для нас перебрать аргументы запроса? Я не уверен, что у LWP :: UserAgent есть метод для этого. Ну, я иногда слышал, что проще использовать Mechanize. Но так ли проще!?

Но - если быть откровенным; Первое задание ПОЛУЧЕНИЕ всех страниц не очень сложно - если сравнить это задание с анализом ... Как это можно сделать !?

Любые идеи - предложения -

с нетерпением жду ответа от вас ...

ноль

1 Ответ

1 голос
/ 25 июля 2011

Вам не нужен модуль Perl, вам нужна только функция system.

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Возможно, вам понадобится предварительно обработать изображения, чтобы помочь Tesseract, например, используя ImageMagick, например:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...