Каковы требования / второй стандарт для очистки веб-сайтов? - PullRequest
4 голосов
/ 30 мая 2010

Это был самый близкий вопрос к моему вопросу, и на него не очень хорошо ответили, imo:

Сетевой этикет

Я ищу ответ # 1:

Сколько запросов в секунду вы должны сделать, чтобы очистить?

Прямо сейчас я вытягиваю из очереди ссылки. Каждый очищенный сайт имеет собственную ветку и спит в течение 1 секунды между запросами. Я прошу сжатие GZIP для экономии пропускной способности.

Существуют ли для этого стандарты? Конечно, у всех крупных поисковых систем есть некоторый набор рекомендаций, которым они следуют в отношении этого.

Ответы [ 3 ]

6 голосов
/ 30 мая 2010

статья в Википедии о сканировании в Интернете содержит информацию о том, что делают другие:

Чо [22] использует 10 секунд в качестве интервал для доступа и ПРОВОД сканер [28] использует 15 секунд в качестве дефолт. MercatorWeb гусеничный придерживается политики адаптивной вежливости: если это займет t секунд, чтобы загрузить документ с данного сервера, гусеничный ждет 10т секунд загрузка следующей страницы. [29] Укроп и другие. [30] использовать 1 секунду.

Я обычно пробую 5 секунд с небольшим количеством случайности, поэтому это выглядит менее подозрительно.

3 голосов
/ 30 мая 2010

Для этого нет установленного стандарта, это зависит от того, какую нагрузку вызывает очистка веб-страниц. Пока вы заметно не влияете на скорость сайта для других пользователей, это должна быть приемлемая скорость очистки.

Поскольку количество пользователей и нагрузка на веб-сайт постоянно меняются, было бы неплохо динамически настроить скорость очистки.

Следите за задержкой загрузки каждой страницы, и если задержка начинает увеличиваться, начните снижать скорость очистки. По сути, загрузка / задержка веб-сайта должна быть обратно пропорциональна вашей скорости просмотра.

1 голос
/ 30 мая 2010

Когда мои клиенты / начальники просят меня сделать что-то подобное, я обычно ищу общедоступный API, прежде чем прибегнуть к очистке публичного сайта. Кроме того, обращение к владельцу сайта или техническому контакту с просьбой разрешить это сведет к минимуму количество писем «прекратить и отказаться».

...