Спросите себя, есть ли какое-либо преимущество (для вас) в возможности доступа к вашему веб-сканеру с помощью веб-запросов. Если нет, то нет причин помещать его в веб-контейнер.
... но я хочу постоянно ездить по этим сайтам (24 часа), чтобы быть уверенным, что у меня самая свежая информация.
Надеюсь, у вас есть согласие / разрешение владельцев сайта на это. В противном случае они могут принять технические или юридические меры, чтобы помешать вам сделать это.
Как говорит Дэнни Томас, ваш сканер должен реализовать обработчик "robots.txt" и уважать, что эти файлы говорят при сканировании.
Followup
Я не могу посещать ту же страницу снова, по крайней мере, еще 10-15 часов из-за количества сайтов, которые мне нужно посетить. Это все еще считается слишком много ползать?
Это неправильный вопрос. Правильный вопрос, который нужно задать, состоит в том, сочтут ли владельцы конкретных сайтов слишком большим количеством сканирования.
Сколько это стоит? Нужно ли им выполнять дополнительную работу, чтобы справиться с нагрузкой, вызванной вашим сканированием? Они должны добавить емкость? Увеличивает ли это их эксплуатационные расходы? (Сетевые расходы, электричество?)
Вы делаете что-то с их контентом, что может уменьшить их доход; например уменьшить количество реальных показов на их сайте, количество кликов по рекламе?
Какую выгоду они получают от вашего сканирования?
Что вы делаете для общественного блага? (Или это просто способ заработать на их содержании?)
Единственный способ действительно узнать это спросить их .