парсинг изображения, чтобы получить из него информацию - PullRequest
0 голосов
/ 17 мая 2011

Несколько дней я размышлял о трехсторонней работе

а. получение б. разбор с. хранение нескольких страниц.

Два дня назад я думал, что получение страниц будет основной задачей. Нет, это не тот случай - я думаю, что работа парсера была бы героической задачей. Каждая из страниц, предназначенных для анализа, является png-изображением.

Так что вопрос - после получения всех их. Как их разобрать !? Это кажется проблемой. Угадайте, что есть некоторые Perl-модули, которые могут помочь в этом ...

Что ж, я думаю, что эту работу можно выполнить только с помощью встроенного оптического распознавания символов! Вопрос: есть ли Perl-модуль, который можно использовать здесь для поддержки этой задачи:

Кстати: см. Страницы результатов.

see an image

BTW ;: и, как я думал, я могу найти все 790 страниц результатов в определенном диапазоне между Id = 0 и Id = 100000 я думал, что я могу пойти по пути с петлей:

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=10579&InterfaceLanguage=1&Type=Html

Я думал, что смогу пойти по Perl-Way, но я не очень уверен: Я пытался использовать LWP :: UserAgent для тех же URL-адресов [см. Ниже] с разными аргументами запроса, и мне интересно, если LWP :: UserAgent предоставляет способ для нас перебрать аргументы запроса? Я не уверен, что у LWP :: UserAgent есть метод для этого. Ну, я иногда слышал, что проще использовать Mechanize. Но так ли проще!?

Но - если быть откровенным; Первое задание ПОЛУЧЕНИЕ всех страниц не очень сложно - если сравнить это задание с анализом ... Как это можно сделать !?

Любые идеи - предложения -

с нетерпением жду ответа от вас ...

ноль

1 Ответ

1 голос
/ 17 мая 2011

Я бы предложил использовать Image::OCR::Tesseract

У меня был хороший опыт использования Тессеракт в прошлом с использованием C ++.

См. this для дальнейшей информации.

...