Фигурные скобки в текстовом файле роботов - PullRequest
2 голосов
/ 06 марта 2019

Я работал над очисткой веб-страниц и обнаружил приведенные ниже шаблоны в одном файле robots.txt.

Disallow: /*{{url}}*
Disallow: /*{{imageURL}}*

Имеют ли они в виду, что я не могу удалять любой URL-адрес?

1 Ответ

0 голосов
/ 07 марта 2019

Похоже, что автор сайта допустил ошибку, поскольку {{url}} и {{imageURL}}, вероятно, должны были быть переменными, которые должны быть заменены фактическими значениями.

При интерпретации этой записи в соответствии с оригиналомВ спецификации robots.txt все символы должны интерпретироваться буквально, поэтому такие URL-адреса будут запрещены:

Поскольку { и } не допускаются в пути URL ( список разрешенных символов ), этобудет означать, что все URL разрешено сканировать.Однако, если вы предпочитаете, вы можете предположить, что это относится к процентно-кодированным формам { / }, но это не то, что требуется в спецификации.

При интерпретации этой записи на основе популярных расширенийспецификация robots.txt (например, , используемая поиском Google ), * имеет специальное значение: каждый * в значении Disallow может быть заменен ничем или любой последовательностью символов,Это привело бы к большему количеству запрещенных URL, но они все равно должны были бы содержать буквально {{url}} и {{imageURL}}.

...