Может ли робот, не поддерживающий Robot Exclusion Protocal (robots.txt), прочитать какой-либо контент сайта? - PullRequest
1 голос
/ 31 октября 2011

Документ об исключении роботов гласит:

Он не применяется никем, и нет никаких гарантий, что все нынешние и будущие роботы будут его использовать.Считайте, что это обычное средство, которое большинство авторов роботов предлагают сообществу WWW для защиты сервера WWW от нежелательного доступа их роботов.

Это означает, что робот BAD не реализует протокол исключения роботов (robots.txt)), можете читать любой контент сайта?

Ответы [ 2 ]

1 голос
/ 31 октября 2011

Да. Этот протокол является средством разметки частей сайта, которые нет смысла сканировать для роботов. Это не средство безопасности.

То есть любая конфиденциальная или конфиденциальная информация, предоставляемая веб-сайтом, должна быть доступна только в течение аутентифицированного сеанса. Недостаточно использовать URL-адрес на основе GUID-with-no-links-to-it или robots.txt для защиты таких данных.

Были некоторые смущающие инциденты, например когда поисковая система непреднамеренно индексирует (и кэширует) Отправляет страницы подтверждения SMS от оператора сотовой связи, вместе с текстами SMS и номерами телефонов получателей.

1 голос
/ 31 октября 2011

Да. Ни один робот не обязан следовать правилам.

...