Мне поручено написать псевдо-сканер в Интернете для расчета определенной статистики. Мне нужно измерить процент HTML-файлов, которые начинаются с <DOCTYPE
, против количества HTML-файлов, у которых его нет, и сравнить эти статистические данные между сайтами на разные темы. Для этого нужно найти в Google разные термины (например, «Автомобиль», «Фондовая биржа», «Липосакция» ...) и запросить первые 300 страниц или около того.
Я хочу, чтобы процесс был очень быстрым, но я не хочу, чтобы меня забанили. Конечно, я хочу минимизировать время разработки, когда это возможно. Может быть, какой-нибудь тупой скрипт на Perl.
Есть ли готовое решение, которое я могу и должен использовать повторно? В Google я не нашел ничего подходящего, потому что то, что я хочу измерить, не является частью HTML, но находится в файлах HTML.