Лучший сканер веб-графики для скорости? - PullRequest
5 голосов
/ 06 августа 2010

В течение последнего месяца я использовал Scrapy для проекта по поиску в Интернете, который я начал.

Этот проект включает в себя полное содержание документа всех веб-страниц в одном доменном имени, которые доступны с домашней страницы. Написание этого с использованием Scrapy было довольно простым, но оно просто работает слишком медленно. В течение 2-3 дней я могу снять только 100 000 страниц.

Я понял, что мое первоначальное представление о том, что Scrapy не предназначен для этого типа сканирования, само по себе раскрывается.

Я начал фокусироваться на Nutch и Methabot в надежде на лучшую производительность. Единственные данные, которые мне нужно хранить во время сканирования, - это полное содержимое веб-страницы и, предпочтительно, все ссылки на странице (но даже это можно сделать при постобработке).

Я ищу сканер, который работает быстро и использует много параллельных запросов.

Ответы [ 3 ]

5 голосов
/ 02 сентября 2010

Это моя вина сервера, а не Scrapy. Сервер может работать не так быстро, как вы хотите, или он (или веб-мастер) обнаруживает сканирование и ограничивает скорость для этого соединения / cookie. Вы используете прокси? Это может замедлить ползание тоже. Это может быть мудростью Scrapy, если вы будете ползти слишком интенсивно, вы можете получить бан на этом сервере. Для моего сканера C ++ , написанного от руки , я искусственно установил ограничение в 1 запрос в секунду. Но этой скорости достаточно для 1 потока (1 требование * 60 секунд * 60 минут * 24 часа = 86400 запросов / день). Если вы заинтересованы, вы можете написать письмо на whalebot.helmsman {AT} gmail.com.

2 голосов
/ 07 сентября 2010

Scrapy позволяет определить количество одновременных запросов и задержку между запросами в его настройках .

0 голосов
/ 19 сентября 2010

Вы знаете, где находится узкое место?Как указал whalebot.helmsman, ограничение может быть не на самом Scrapy, а на сервере, который вы сканируете.

Вы должны начать с выяснения, является ли узкое место сетью или процессором.

...