Загрузите файл robots.txt и выполните поиск «Disallow:» в файле. Затем проверьте, находится ли следующий шаблон (после Disallow :) в вашем URL. Если это так, URL запрещен robots.txt
Пример -
Вы найдете следующую строку в файле robots.txt:
Disallow: / cgi-bin /
Теперь удалите «Disallow:» и проверьте, находится ли «/ cgi-bin /» (оставшаяся часть) непосредственно после TLD.
Если ваш URL выглядит так:
www.stackoverflow.com / CGI-BIN / somwhatelse.pl
запрещено.
Если ваш URL выглядит так:
www.stackoverflow.com / somwhatelse.pl
все в порядке. Полный набор правил вы найдете на http://www.robotstxt.org/. Именно так, если вы не можете установить дополнительные модули по любой причине.
Лучше было бы использовать модуль из cpan:
На cpan есть отличный модуль, которым я пользуюсь: LWP :: RobotUA . LWP (libwww) является imho стандартом веб-доступа в perl - и этот модуль является его частью и обеспечивает хорошее поведение.