Как разрешить сканерам доступ только к index.php, используя robots.txt? - PullRequest
9 голосов
/ 28 октября 2009

Если я хочу разрешить сканерам доступ только к index.php, будет ли это работать?

User-agent: *
Disallow: /
Allow: /index.php

Ответы [ 5 ]

20 голосов
/ 30 октября 2009

Да, это будет работать. Вот результат теста Google Webmaster Tool .

Url
http://www.example.org/index.php

Googlebot
Allowed by line 3: Allow: /index.php

Googlebot-Mobile
Allowed by line 3: Allow: /index.php

Однако помните, что при такой конфигурации ваша домашняя страница сайта не будет сканироваться, если к странице не будет открыт полный путь. Другими словами, http://www.example.org/ запрещено, а http://www.example.org/index.php разрешено.

Если вы хотите, чтобы ваша домашняя страница была доступна, вот лучшая версия вашего файла.

User-agent: *
Disallow: /
Allow: /index.php
Allow: /$
3 голосов
/ 02 марта 2011
User-agent: *

Allow: /index.php
Disallow: /
2 голосов
/ 28 октября 2009

Попробуйте поменять местами порядок Disallow / Allow:

User-agent: *
Allow: /index.php
Disallow: /

См. Эту информацию из Википедии:

"Тем не менее, чтобы быть совместимым со всеми роботы, если вы хотите, чтобы один файлы внутри в противном случае запрещено каталог, необходимо разместить Разрешить сначала директива, а затем Запретить, например: "

http://en.wikipedia.org/wiki/Robots.txt

Тем не менее, я не ожидал бы, что это будет работать слишком последовательно

1 голос
/ 04 августа 2014
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /

Sitemap: http://www.your-site-name.com/sitemap.xml
1 голос
/ 28 октября 2009

Вы можете использовать Google Robots tool , чтобы оформить заказ. Я никогда не помещал бы секретные каталоги в файл роботов, так как предполагал, что строка, подобная приведенной ниже, будет такой же медовой для некоторых пауков.

Disallow: /secret
...