robots.txt;Какая кодировка? - PullRequest
9 голосов
/ 29 сентября 2010

Я собираюсь создать файл robots.txt .

Я использую Блокнот .

Как мне сохранить файл? UTF8 , ANSI или что?

Кроме того, это должен быть капитал R ?

И в файле я указываю местоположение карты сайта. Должно ли это быть с капиталом S ?

  User-agent: *
  Sitemap: http://www.domain.se/sitemap.xml

Спасибо

Ответы [ 6 ]

5 голосов
/ 29 сентября 2010

Поскольку файл должен состоять только из символов ASCII, обычно не имеет значения, сохраните ли вы его как ANSI или UTF-8.

Однако вы должны выбрать ANSI, если у вас есть выбор, потому что при сохранении файла в формате UTF-8 блокнот добавляет метку порядка байтов Unicode в начало файла, что может сделать файл нечитаемым для интерпретаторов, которые знают только ASCII.

1 голос
/ 13 июля 2013

Я считаю, что Robots.txt "должен" быть в кодировке UTF-8.

"Ожидаемый формат файла - обычный текст, закодированный в UTF-8 . Файл состоит из записей (строк), разделенных CR, CR / LF или LF. "

/ из https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt

Но блокнот и другие программы вставят3-байтовая спецификация (Byte Order Mark) в начале файла, из-за которой Google не может прочитать эту первую строку (с ошибкой «неверный синтаксис»).

Любой;удалить спецификацию или, что намного проще, добавить разрыв строки в первой строке , чтобы первая строка инструкций пришла на строку номер два.

Строка «неверный синтаксис», вызванная спецификацией, повлияет только на первую строку, которая теперь пуста.

Остальные строки будут успешно прочитаны.

1 голос
/ 29 сентября 2010

Что касается кодировки: @Roland уже прибил его. Файл должен содержать только URL. Не-ASCII символы в URL недопустимы, поэтому сохранение файла в формате ASCII должно быть просто нормальным.

Если по какой-то причине вам нужно обслуживать UTF-8, убедитесь, что это правильно указано в заголовке content-type текстового файла. Вам нужно будет установить это в настройках вашего веб-сервера.

Что касается чувствительности к регистру:

  • Согласно robotstxt.org , файл robots.txt должен быть в нижнем регистре:

    Не забудьте использовать все строчные буквы для имени файла: "robots.txt", а не "Robots.TXT.

  • Ключевые слова, вероятно, нечувствительны к регистру - я не могу найти ссылку на это - но я склонен делать то, что делают все остальные: использовать заглавные буквы (Sitemap).

0 голосов
/ 09 мая 2018

Я предлагаю вам использовать ANSI, потому что если ваш robots.txt сохранен как UTF-8, то он будет помечен как неисправный в поисковой консоли Google из-за метки порядка байтов Unicode, добавленной в его начало (как упоминалось в Роланд Иллиг выше).

0 голосов
/ 05 июля 2013

Я рекомендую либо кодировать robots.txt в UTF8, без спецификации, либо кодировать его в ASCII.

Для URL-адресов, которые не являются символами ASCII, я предлагаю либо использовать UTF8, что в большинстве случаев хорошо, либо использовать URL-кодирование для представления всех символов в ASCII.

Взгляните на файл robots.txt Википедии - это кодировка UTF8.

См. Ссылки:

0 голосов
/ 29 сентября 2010

Я думаю, ты слишком много думаешь.Я всегда пишу строчными буквами, просто потому, что это проще.

Вы можете просмотреть robots.txt SO.https://stackoverflow.com/robots.txt

...