Каков приемлемый интервал обновления для веб-сканера? - PullRequest
1 голос
/ 10 июля 2010

В настоящее время я работаю над своим маленьким веб-сканером, и мне было интересно ...

Каков приемлемый интервал для веб-сканера для повторного посещения тех же сайтов?

Стоит ли вампересматривать их один раз в день?Раз в час?Я действительно не знаю ... есть ли у кого-нибудь опыт в этом вопросе?Возможно, кто-то может указать мне правильное направление?

Ответы [ 3 ]

3 голосов
/ 10 июля 2010

Я думаю, что ваши посещения сканеров должны быть органичными.

Я бы начал с обхода списка один раз в неделю,
, а когда контент сайта меняется, настройте его на сканирование дважды в неделю,[и затем], когда вы видите более частые изменения, вы сканируете чаще.

Алгоритм должен быть достаточно умным, чтобы знать разницу между единичными изменениями и частыми изменениями сайта.Никогда не забывайте обращать внимание на Robots.txt ... это первая страница, на которую вы должны попасть при сканировании, и вы должны уважать ее содержимое превыше всего.

2 голосов
/ 10 июля 2010

Это будет зависеть от сайтов, которые вы сканируете, и от того, что вы делаете с результатами.

Некоторые не будут возражать против довольно частого посещения, но другие могут ограничить вас одним посещением каждый день,например.

Многие сайты стремятся защитить свой контент (посмотрите, как Мердок и News International выступают против Google и ставят «Таймс» (Великобритания) за платный доступ), поэтому они с недоверием смотрят на сканеров.

Если вы собираетесь сканировать только несколько сайтов, стоит связаться с владельцами сайтов и объяснить, что вы хотите сделать, и посмотреть, что они ответят.Если они отвечают, уважайте их желания и всегда подчиняйтесь файлу robots.txt.

1 голос
/ 10 июля 2010

Даже час может быть невежливым в зависимости от того, на каких сайтах вы проводите пауки и насколько интенсивно. Я предполагаю, что вы делаете это как упражнение, так что помогите спасти мир и ограничьте себя сайтами, которые созданы для обработки огромных нагрузок, а затем получите только заголовки HTTP, чтобы узнать, нужно ли вам даже получить страницу.

Еще более вежливым было бы сначала создать ограниченный набор с помощью wget, хранить его локально и сканировать в кеше.

Если вы не делаете это как упражнение, нет никаких причин делать это, как это было сделано до смерти, и для интервеба не требуется еще одно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...