Question

Мне поручено написать псевдо-сканер в Интернете для расчета определенной статистики. Мне нужно измерить процент HTML-файлов, которые начинаются с <DOCTYPE, против количества HTML-файлов, у которых его нет, и сравнить эти статистические данные между сайтами на разные темы. Для этого нужно найти в Google разные термины (например, «Автомобиль», «Фондовая биржа», «Липосакция» ...) и запросить первые 300 страниц или около того.

Я хочу, чтобы процесс был очень быстрым, но я не хочу, чтобы меня забанили. Конечно, я хочу минимизировать время разработки, когда это возможно. Может быть, какой-нибудь тупой скрипт на Perl.

Есть ли готовое решение, которое я могу и должен использовать повторно? В Google я не нашел ничего подходящего, потому что то, что я хочу измерить, не является частью HTML, но находится в файлах HTML.

John Paulett · Answer 1 · 06 декабря 2009

wget может делать практически все, включая ограничение частоты запросов.

Sune Rievers · Answer 2 · 06 декабря 2009

HTTrack также довольно хорош и прост в использовании. Имеет приятный графический интерфейс и множество опций.

Источник также доступен, если вы ищете вдохновение: здесь

Написание псевдо-сканера для веб-статистики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Написание псевдо-сканера для веб-статистики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов