Запуск паука (веб-сканер), чтобы найти определенный контент - PullRequest
4 голосов
/ 05 декабря 2010

Прежде всего, я не знаю, является ли это правильным местом для этого вопроса.Если нет, то извините :)

Я думаю о том, чтобы написать паука для сканирования веб-сайтов и поиска определенных встроенных файлов.

Однако мне было интересно, разрешено ли ISP запускать паука,потому что он будет выполнять большое количество запросов в быстром темпе.

Или я должен добавить некоторую задержку в запросах?

Я прочитал контракт с моим провайдером, но не смогнайдите что-нибудь конкретное о сканировании.

Ответы [ 2 ]

2 голосов
/ 05 декабря 2010

Вы можете посмотреть на wget . У него есть несколько полезных идей. Вы должны принять к сведению ROBOTS.txt на сайтах, которые вы хотите сканировать. И вам следует оставить задержку между запросами, чтобы не создавать условия отказа в обслуживании.

1 голос
/ 29 декабря 2010

Нет ничего, что могло бы запретить вам ползать. Это не отличается от обычного взаимодействия с пользователем. Если вы открываете страницу с большим количеством картинок, браузер делает много запросов одновременно.

У вас может быть лимит передачи - просто отметьте, сколько данных вы скачали.

Вы должны учитывать, что сканирование большого количества страниц может рассматриваться как DoS-атака или быть запрещено оператором страницы. Следуй их правилам. Если они требуют, чтобы с одного компьютера ежедневно выполнялось не более N запросов, соблюдайте их. У некоторых задержек не блокировать доступ к сайту.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...