Полагаю, можно просто интерпретировать файл robot.txt
с regex
.Звезду обычно можно интерпретировать как что-нибудь / все .
Строка User-Agent User-agent: *
не означает, что вам разрешено удалять все, это просто означает следующие правилаприменяется ко всем пользовательским агентам .Вот примеры агентов-агентов
# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1
, которые должны соответствовать тем же правилам, а именно:
Например, Disallow: /*?*&*
означает, что вы не разрешено удалять субдомены в форме
/some_sub_domain?param_name=param_value.
Или строка /*/*/*/*/*/*/*/*/
означает, что субдомены следующей формы не могут быть очищены
/a/b/c/d/e/f/g/i/
Наконец, вот несколько полезных примеров и больше по теме.