Используйте файл robots.txt, чтобы заблокировать все, кроме изображений - PullRequest
0 голосов
/ 17 октября 2018

Я передаю изображения только на мой CDN.

У меня есть файл robots.txt, настроенный в моем домене CDN, который отличается от файла, настроенного в моем «обычном» домене www.

Я хочу отформатировать файл CDN robots.txt в моем домене CDN, чтобы он блокировал индексирование всего, кроме изображений (независимо от их расположения)?

Причина всего этого заключается в том, что я хочу избежатьдублированный контент.

Это правильно?

User-agent: * 
Disallow: / 
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$

Ответы [ 2 ]

0 голосов
/ 17 октября 2018

Да!Disallow это правильно!Разрешить тоже правильно!
И в качестве подсказки укажите и карту сайта!:)

0 голосов
/ 17 октября 2018

Если у вас есть все изображения в определенных папках, вы можете использовать:

Только для Google-бота:

User-agent: Googlebot-Image
Allow: /some-images-folder/

Для всех пользовательских агентов:

User-agent: *
Allow: /some-images-folder/

Кроме того, Google ввел повышенную гибкость в стандарт файла robots.txt благодаря использованию звездочек.Запрещенные шаблоны могут включать «*» для соответствия любой последовательности символов, а шаблоны могут заканчиваться на «$» для обозначения конца имени.

Чтобы разрешить файл определенного типа (например, для изображений.gif), вы можете использовать следующую запись robots.txt:

User-agent: Googlebot-Image
Allow: /*.gif$

Информация 1: По умолчанию (вЕсли у вас нет robots.txt), все содержимое сканируется.

Информация 2: Оператор Allow должен предшествовать оператору Disallow, независимо от того, насколько конкретны ваши операторы ..

Вот вики-ссылка на стандарт исключения роботов для более подробного описания.

В соответствии с этим ваш пример должен выглядеть следующим образом:

User-agent: * 
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$
Disallow: / 

ПРИМЕЧАНИЕ: Как отметил в своем комментарии nev, также важно следить за строками запроса вконец расширений, например image.jpg?x12345, поэтому также включайте

  Allow: /*.jpg?*$
...