Разрешить индексирование SE только для index.html - PullRequest
0 голосов
/ 02 февраля 2010

Какой самый короткий способ заблокировать * и позволить только основным поисковым системам индексировать только индексную страницу сайта?

User-agent:  *
Disallow: /

User-agent: Googlebot
Disallow: /
Allow: index.html

User-agent: Slurp
Disallow: /
Allow: index.html

User-agent: msn
Disallow: /
Allow: index.html

Будет ли это работать?

1 Ответ

0 голосов
/ 02 февраля 2010

Да, это был бы самый короткий способ сделать это. Это не обязательно правильно.

Не все боты поддерживают директиву Allow. И некоторые боты не понимают, как интерпретировать файл robots.txt, когда есть разделы User-agent: * и User-agent: Specific-bot, которые применяются.

Чтобы быть уверенным, что это сработает, вам нужно сделать что-то вроде этого:

User-agent: Googlebot
Disallow: /file1
Disallow: /file2
Disallow: /file3
# etc. until you have blocked every path except index.html

User-agent: Slurp
Disallow: /file1
Disallow: /file2
Disallow: /file3
# etc. until you have blocked every path except index.html

User-agent: msn
Disallow: /file1
Disallow: /file2
Disallow: /file3
# etc. until you have blocked every path except index.html

User-agent:  *
Disallow: /

Если вы не хотите выполнять всю эту работу, то лучше всего протестировать каждый интересующий вас движок и посмотреть, примут ли они файл robots.txt, который вы предложили. Если нет, попробуйте более длинную версию.

...