Как быстро я могу на самом деле сканировать веб-сайт? - PullRequest
4 голосов
/ 09 декабря 2010

Я собираюсь сканировать веб-сайт для получения некоторой информации. Это около 170 000+ страниц. Итак, сколько запросов я могу сделать? Я собираюсь извлечь HTML и получить некоторую информацию. Это уже очень популярный сайт, поэтому я не думаю, что он умер бы, если бы просто путешествовал быстро по всем страницам ... Единственное, что меня нервирует, так это то, что я не знаю, заблокирует ли владелец мой IP или что-то в этом роде. если ты это сделаешь? Это нормально? Должен ли я просто загрузить 5 страниц / мин? Тогда это займет вечность ... Я хочу получать новые данные каждые 24 часа, см.

Спасибо за все ответы!

Ответы [ 4 ]

5 голосов
/ 09 декабря 2010

Это займет некоторое время, на самом деле я предлагаю вам использовать вращающиеся прокси и добавить многопоточность. 10 темы сделают. Таким образом, вы можете иметь 10 запросов одновременно. Использование прокси будет медленным, и добавление тайм-аута по крайней мере 1,5 секунды для каждого запроса, это замедлит вас, но снизит риск получения бана.

2 голосов
/ 09 декабря 2010

Пару лет назад я создал веб-сканер, который сканировал около 7 ГБ за ночь с веб-сайта BBC (ограниченный пропускной способностью) и никогда не блокировался, но добавление задержки в 1 секунду между запросами - достойная вещь.

1 голос
/ 09 декабря 2010

Пока вы подчиняетесь их инструкциям robots.txt, вы, вероятно, должны быть в порядке.Стандартная задержка между запросами, которую я видел, составляет 2 секунды - это довольно часто предел, после которого вы можете начать ограничивать трафик или блокировать ip.

1 голос
/ 09 декабря 2010

Вторая или две задержки после каждого запроса должны быть достаточными.Заставив вашего бота ползти как можно быстрее, вы фактически забанитесь.В своей повседневной работе я управляю сайтами для нескольких газет и иногда вижу доморощенных сканеров.Плохие действительно могут вызвать много системного кода и привести к новому добавлению в черный список IP-адресов.Не будь тем парнем.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...