Вопрос по robots.txt с Disallow без двоеточия - PullRequest
1 голос
/ 06 марта 2019

Я недавно начал работать над небольшим заданием по веб-обработке для своей работы и немного познакомился с вопросом robots.txt.

Здесь я недавно обнаружил веб-сайт со странным файлом robots.txt:

User-agent:*
Disallow

Мое понимание (поддерживаемое множеством примеров на разных форумах) robots.txt заключается в том, что DisallowКоманда должна содержать двоеточие, чтобы иметь какое-либо влияние на сканеры, которые читают файл.Итак, из этого я понял, что эта веб-страница позволяет сканировать поисковые системы.

С другой стороны, строка User-agent:* без каких-либо других строк используется для указания того, что веб-сайт разрешает полное сканирование.Так почему бы иметь смысл продолжать с Disallow?

Так что в целом я немного запутался в этом вопросе.Буду признателен за некоторые намеки на то, что я пропускаю в этом отношении.Сайт: http://de.vindecoder.pl/

1 Ответ

0 голосов
/ 07 марта 2019

Этот файл robots.txt недействителен. Для записи / блока требуется как минимум одна строка Disallow, а двоеточие необходимо для отделения имени поля от значения поля.

Итак, технически, сканирование всего разрешено, так как это значение по умолчанию, если robots.txt не существует.

То же самое было бы, если бы автор сайта добавил :, так как пустое значение Disallow также означает, что сканирование всего разрешено:

User-agent: *
Disallow:
...