Запуск сканера сайта - PullRequest
       0

Запуск сканера сайта

0 голосов
/ 10 января 2012

Я пишу сканер сайтов на Java, и мне было интересно, какой самый разумный способ запустить его?Другими словами, идти ли по стандартному маршруту веб-приложения и помещать его на веб-сервер и использовать какую-то очередь сообщений или я забываю о контейнере и запускаю его как отдельное приложение Java?

Это ненастоящий сканер веб-сайтов, поскольку он заботится только о x сайтах, но я хочу постоянно переключаться между этими сайтами (24 часа), чтобы быть уверенным, что у меня есть новейший контент.

1 Ответ

1 голос
/ 10 января 2012

Спросите себя, есть ли какое-либо преимущество (для вас) в возможности доступа к вашему веб-сканеру с помощью веб-запросов. Если нет, то нет причин помещать его в веб-контейнер.


... но я хочу постоянно ездить по этим сайтам (24 часа), чтобы быть уверенным, что у меня самая свежая информация.

Надеюсь, у вас есть согласие / разрешение владельцев сайта на это. В противном случае они могут принять технические или юридические меры, чтобы помешать вам сделать это.

Как говорит Дэнни Томас, ваш сканер должен реализовать обработчик "robots.txt" и уважать, что эти файлы говорят при сканировании.


Followup

Я не могу посещать ту же страницу снова, по крайней мере, еще 10-15 часов из-за количества сайтов, которые мне нужно посетить. Это все еще считается слишком много ползать?

Это неправильный вопрос. Правильный вопрос, который нужно задать, состоит в том, сочтут ли владельцы конкретных сайтов слишком большим количеством сканирования.

  • Сколько это стоит? Нужно ли им выполнять дополнительную работу, чтобы справиться с нагрузкой, вызванной вашим сканированием? Они должны добавить емкость? Увеличивает ли это их эксплуатационные расходы? (Сетевые расходы, электричество?)

  • Вы делаете что-то с их контентом, что может уменьшить их доход; например уменьшить количество реальных показов на их сайте, количество кликов по рекламе?

  • Какую выгоду они получают от вашего сканирования?

  • Что вы делаете для общественного блага? (Или это просто способ заработать на их содержании?)

Единственный способ действительно узнать это спросить их .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...