доброе утро.
прежде всего. Это самое впечатляющее сообщество, которое я когда-либо видел!
Ну, несколько дней я размышлял о трехсторонней работе
а. получение
б. разбор
с. хранение нескольких страниц.
Два дня назад я думал, что получение страниц будет основной задачей. Нет, это не тот случай - я думаю, что работа парсера была бы героической задачей. Каждая из страниц, предназначенных для анализа, является png-изображением.
Так что вопрос - после получения всех их. Как их разобрать !? Это кажется проблемой. Угадайте, что есть некоторые Perl-модули, которые могут помочь в этом ...
Что ж, я думаю, что эту работу можно выполнить только с помощью встроенного OCR! Вопрос: есть ли Perl-модуль, который можно использовать здесь для поддержки этой задачи:
Кстати: см. Страницы результатов.
BTW ;: и, как я думал, я могу найти все 790 страниц результатов в определенном диапазоне между
Id = 0 и Id = 100000 Я думал, что я могу пойти по пути с петлей:
http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html
http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html
http://www.foundationfinder.ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html
http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html
http://www.foundationfinder.ch/ShowDetails.php?Id=10579&InterfaceLanguage=1&Type=Html
Я думал, что смогу пойти по Perl-Way, но я не очень уверен:
Я пытался использовать LWP :: UserAgent для тех же URL-адресов [см. Ниже]
с разными аргументами запроса, и мне интересно, если LWP :: UserAgent предоставляет
способ для нас перебрать аргументы запроса? Я не уверен, что у LWP :: UserAgent есть метод для этого. Ну, я иногда слышал, что проще использовать Mechanize. Но так ли проще!?
Но - если быть откровенным; Первое задание ПОЛУЧЕНИЕ всех страниц не очень сложно - если сравнить это задание с анализом ... Как это можно сделать !?
Любые идеи - предложения -
с нетерпением жду ответа от вас ...
ноль