Хочу понять Robots.txt - PullRequest
       79

Хочу понять Robots.txt

0 голосов
/ 22 сентября 2019

Я бы хотел почистить сайт.Однако я хочу разобраться в robots.txt, прежде чем я это сделаю.Строки, которые я не понимаю,

User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*

Означает ли линия пользовательского агента доступ в любом месте?Но тогда у меня есть линия Disallow, которая является основной, которая меня беспокоит.Означает ли это, что нет доступа к 8 слоям или вообще нет доступа?

1 Ответ

1 голос
/ 22 сентября 2019

Полагаю, можно просто интерпретировать файл robot.txt с regex.Звезду обычно можно интерпретировать как что-нибудь / все .

Строка User-Agent User-agent: * не означает, что вам разрешено удалять все, это просто означает следующие правилаприменяется ко всем пользовательским агентам .Вот примеры агентов-агентов

# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1

, которые должны соответствовать тем же правилам, а именно:

  • Например, Disallow: /*?*&* означает, что вы не разрешено удалять субдомены в форме

    /some_sub_domain?param_name=param_value.
    
  • Или строка /*/*/*/*/*/*/*/*/ означает, что субдомены следующей формы не могут быть очищены

    /a/b/c/d/e/f/g/i/
    

Наконец, вот несколько полезных примеров и больше по теме.

...