Чтение файла robots.txt? - PullRequest
0 голосов
/ 03 ноября 2019

Я пытаюсь создать веб-сайт, и его файл robots.txt говорит:

(где zoeksuggestie - это поисковое предложение на английском языке)

User-agent: *

# Miscellaneous
Disallow: /mijn/
Disallow: /*/print/*
Disallow: /koop/zoeksuggestie/
Disallow: /huur/zoeksuggestie/
Disallow: /nieuwbouw/zoeksuggestie/
Disallow: /recreatie/zoeksuggestie/
Disallow: /europe/zoeksuggestie/
Disallow: /*/brochure/download/
Disallow: */uitgebreid-zoeken/*
Disallow: /makelaars/*/woningaanbod/*
Disallow: /zoekwidget/*
Allow: /zoekwidget/$
Disallow: /relatedobjects
Disallow: /mijn/huis/wonen/toevoegen/
Disallow: /*/woningrapport/

# Prevent bots from indexing combinations of locations
Disallow: /koop/*,*
Disallow: /huur/*,*
Disallow: /nieuwbouw/*,*
Disallow: /recreatie/*,*
Disallow: /europe/*,*

Означает ли это, что я не могуочистить любую ссылку, которая /koop/*,*? что означает *,*? Мне действительно нужно получить данные с этого сайта для проекта, но меня продолжают блокировать с помощью скрапа / красивого супа.

1 Ответ

3 голосов
/ 03 ноября 2019

Файл robots.txt является частью «стандарта исключения роботов» всякий раз, когда бот посещает веб-сайт, они проверяют файл robots.txt, чтобы увидеть, к чему у них нет доступа. Google использует это, чтобы не индексировать или, по крайней мере, публично отображать URL-адреса, совпадающие с URL-адресами в файле robots.txt.

Файл, однако, не обязательно должен соответствовать robots.txt. * является подстановочным знаком, поэтому /koop/*,* будет сопоставлять что угодно с / koop / [подстановочный знак], [подстановочный знак]. Вот отличное руководство по подстановочным знакам в файле robots.txt https://geoffkenyon.com/how-to-use-wildcards-robots-txt/

Вы упомянули, что scrapy не работает, потому что scopy следует robots.txt по умолчанию. Это можно отключить в настройках, на этот вопрос ответили здесь: Получение Запрещено robots.txt: scrapy

...