Блокировка папок между разрешенным содержимым - PullRequest
1 голос
/ 14 мая 2011

У меня есть сайт со следующей структурой:

http://www.example.com/folder1/folder2/folder3

Я бы хотел запретить индексирование в folder1 и folder2.Но я бы хотел, чтобы роботы проиндексировали все под folder3.

. Есть ли способ сделать это с robots.txt?

Для того, что я прочитал, я думаю, что все внутри указанногопапка запрещена.

Достигнут ли мои цели следующие цели?

user-agent: *
Crawl-delay: 0

Sitemap: <Sitemap url>

Allow: /folder1/folder2/folder3
Disallow: /folder1/folder2/
Disallow: /folder1/
Allow: /

Ответы [ 3 ]

0 голосов
/ 14 мая 2011

Да, это работает ... однако в Google есть инструмент для проверки файла robots.txt

Вам нужно всего лишь воспользоваться инструментами Google для веб-мастеров (https://www.google.com/webmasters/tools/)

и откройте раздел «Конфигурация сайта -> Доступ для сканера»

0 голосов
/ 13 февраля 2015

Разрывы строк в записях не допускаются, поэтому ваш оригинальный файл robots.txt должен выглядеть следующим образом:

user-agent: *
Crawl-delay: 0
Sitemap: <Sitemap url>
Allow: /folder1/folder2/folder3
Disallow: /folder1/folder2/
Disallow: /folder1/
Allow: /

Возможные улучшения:

  • Указание Allow: /является излишним, так как в любом случае это значение по умолчанию.

  • Указание Disallow: /folder1/folder2/ является излишним, поскольку достаточно Disallow: /folder1/.

  • как Sitemap не для каждой записи, но для всех ботов вы можете указать его как отдельный блок.

Так что ваш robots.txt может выглядеть так:

User-agent: *
Crawl-delay: 0
Allow: /folder1/folder2/folder3
Disallow: /folder1/

Sitemap: http://example.com/sitemap

(Обратите внимание, что поле Allow не является частью исходной спецификации robots.txt , поэтому не ожидайте, что все боты это поймут.)

0 голосов
/ 14 мая 2011

Все, что вам нужно, это:

user-agent: *
Crawl-delay: 0

Sitemap: 

Allow: /folder1/folder2/folder3
Disallow: /folder1/
Allow: /

По крайней мере, googlebot увидит более конкретное разрешение для этого каталога и запретит что-либо, начиная с folder1 и далее. Это подтверждается этой публикацией сотрудником Google.

...