Беспокойство о пауках, постоянно попадающих на страницу с высоким спросом - PullRequest
1 голос
/ 15 апреля 2010

Из-за некоторых довольно странных архитектурных соображений мне пришлось настроить что-то, что действительно должно работать как консольное приложение как веб-страница.Он выполняет работу по написанию большого разнообразия текстовых файлов и XML-каналов из данных нашего сайта для различных других служб, поэтому очевидно, что для его запуска требуется немного времени, и он требует значительных ресурсов процессора.

Однако до этогоЯ развернул его, я довольно обеспокоен тем, что его могут неоднократно поражать пауки и тому подобное.Вполне нормально, что данные переписываются, но постоянные попадания на эту страницу будут вызывать проблемы с производительностью по очевидным причинам.

Стоит ли мне беспокоиться об этом?Или в действительности трафик паука вряд ли будет достаточно интенсивным, чтобы вызвать проблемы?

Ответы [ 3 ]

1 голос
/ 15 апреля 2010

Вы можете сказать большим, чтобы не паук вас; www.robotstxt.org .

Вы могли бы также реализовать некоторую форму критериев аутентификации / IP-адреса, которая помешала бы его работе.

1 голос
/ 15 апреля 2010

Вы можете быть удивлены, сколько там пауков.

Вы должны использовать robots.txt, чтобы исключить их.

Если вы беспокоитесь, что пауки могут игнорировать robots.txt (а некоторые неизбежно будут), как насчет запроса POST, а не GET для запуска сценария? Это должно исключить всех пауков.

0 голосов
/ 15 апреля 2010

Вы должны требовать аутентификацию для страницы.

Даже если вы исключите это из robots.txt, нет никаких гарантий, что пауки будут уважать это. Если это дорогая страница, которая может повлиять на доступность сайта, поместите ее за шлюзом аутентификации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...