Как запретить сканирование на исходном сервере, и все же правильно ли распространяется файл robots.txt? - PullRequest
3 голосов
/ 11 мая 2011

Я столкнулся с довольно уникальной проблемой. Если вы имеете дело с масштабированием больших сайтов и работаете с такой компанией, как Akamai, у вас есть исходные серверы, с которыми Akamai общается. Что бы вы ни служили Акамаю, они будут распространяться на своем диске.

Но как вы справляетесь с robots.txt? Вы не хотите, чтобы Google сканировал ваше происхождение. Это может быть ОГРОМНАЯ проблема безопасности. Подумайте об отказе в обслуживании.

Но если вы отправите robots.txt в вашем источнике со словом "disallow", то весь ваш сайт будет недоступен для сканирования!

Единственное решение, которое я могу придумать, - это предоставить другой файл robots.txt Акамаю и всему миру. Откажитесь от мира, но позвольте Акамаю. Но это очень смешно и склонно ко многим проблемам, и я не могу думать об этом.

(Конечно, серверы происхождения не должны быть доступны общественности, но я бы сказал, что большинство из них по практическим соображениям ...)

Кажется, проблема в том, что протокол должен обрабатываться лучше. Или, возможно, разрешите скрытый robots.txt для конкретного сайта в инструментах для веб-мастеров поисковой системы ...

Мысли

1 Ответ

1 голос
/ 27 апреля 2012

Если вы действительно хотите, чтобы ваши источники не были общедоступными, используйте брандмауэр / контроль доступа, чтобы ограничить доступ для любого хоста, кроме Akamai - это лучший способ избежать ошибок и единственный способ остановить ботов и злоумышленников, которые просто сканировать общедоступные IP-диапазоны в поисках веб-серверов.

Тем не менее, если все, что вам нужно, это избегать не злонамеренных пауков, рассмотрите возможность использования перенаправления на исходном сервере, который перенаправляет любые запросы, которые не имеют заголовка Host, указывающего ваше общедоступное имя хоста на официальное имя. В общем, вы все равно хотите что-то подобное, чтобы избежать проблем с путаницей или разведением поискового ранга, если у вас есть варианты канонического имени хоста. С Apache это может использовать mod_rewrite или даже простую virtualhost установку, где сервер по умолчанию имеет RedirectPermanent / http://canonicalname.example.com/.

Если вы используете этот подход, вы можете либо просто добавить производственное имя в файл хоста вашей тестовой системы, когда это необходимо, либо также создать и внести в белый список только внутреннее имя хоста (например, cdn-bypass.mycorp.com), чтобы вы можете получить доступ к источнику напрямую, когда вам нужно.

...