Как уважать Robots.txt, используя Nokogiri? - PullRequest
0 голосов
/ 29 сентября 2011

Я тестирую его, и Nokogiri, похоже, не уважает файл Robots.txt.Есть ли способ заставить его уважать?Кажется, это обычный вопрос, но я не смог найти ответа в Интернете.

1 Ответ

4 голосов
/ 30 сентября 2011

Nokogiri анализирует HTML или веб-страницу, которую вы даете.Он ничего не знает о файле robots.txt для домена, в котором находится запрошенная вами страница.

Я предполагаю, что вы хотите игнорировать внутренние ссылки в robots.txt?

Поскольку вы отметили этот Rails, я предполагаю, что вы используете Ruby.В этом случае вы можете использовать библиотеку Mechanize , которая имеет возможность использовать файл robots.txt.

Существует также оригинальная версия Perl и другие языковые порты, если вы предпочитаете их.

...