Написание псевдо-сканера для веб-статистики - PullRequest
1 голос
/ 06 декабря 2009

Мне поручено написать псевдо-сканер в Интернете для расчета определенной статистики. Мне нужно измерить процент HTML-файлов, которые начинаются с <DOCTYPE, против количества HTML-файлов, у которых его нет, и сравнить эти статистические данные между сайтами на разные темы. Для этого нужно найти в Google разные термины (например, «Автомобиль», «Фондовая биржа», «Липосакция» ...) и запросить первые 300 страниц или около того.

Я хочу, чтобы процесс был очень быстрым, но я не хочу, чтобы меня забанили. Конечно, я хочу минимизировать время разработки, когда это возможно. Может быть, какой-нибудь тупой скрипт на Perl.

Есть ли готовое решение, которое я могу и должен использовать повторно? В Google я не нашел ничего подходящего, потому что то, что я хочу измерить, не является частью HTML, но находится в файлах HTML.

Ответы [ 2 ]

2 голосов
/ 06 декабря 2009

wget может делать практически все, включая ограничение частоты запросов.

0 голосов
/ 06 декабря 2009

HTTrack также довольно хорош и прост в использовании. Имеет приятный графический интерфейс и множество опций.

Источник также доступен, если вы ищете вдохновение: здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...