Robots.txt: разрешить только основные SE - PullRequest
22 голосов
/ 22 марта 2009

Есть ли способ настроить robots.txt так, чтобы сайт принимал посещения ТОЛЬКО от Google, Yahoo! а пауки MSN?

Ответы [ 4 ]

32 голосов
/ 22 марта 2009

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Slurp
Allow: /
User-Agent: msnbot
Disallow: 

Slurp - робот Yahoo

18 голосов
/ 22 марта 2009

Почему?

Любой, кто совершает зло (например, собирает адреса электронной почты для спама), просто игнорирует robots.txt. Таким образом, вы будете блокировать только легальные поисковые системы, так как соответствие robots.txt является добровольным.

Но - если вы все равно настаиваете на этом - для этого и нужна строка User-Agent: в robots.txt.

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

Со строками для всех других поисковых систем, с которых вы, конечно, хотите получать трафик. Robotstxt.org имеет частичный список.

2 голосов
/ 23 июня 2018

Существует более 3 основных поисковых систем в зависимости от того, в какой стране вы говорите. Facebook, кажется, делает хорошую работу, перечисляя только законные: https://facebook.com/robots.txt

Таким образом, ваш robots.txt может выглядеть примерно так:

User-agent: Applebot
Allow: /

User-agent: baiduspider
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: msnbot
Allow: /

User-agent: Naverbot
Allow: /

User-agent: seznambot
Allow: /

User-agent: Slurp
Allow: /

User-agent: teoma
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: Yandex
Allow: /

User-agent: Yeti
Allow: /

User-agent: *
Disallow: /
0 голосов
/ 23 октября 2012

Как все знают, robots.txt - это стандарт, которому должен следовать сканер, и, следовательно, только хорошо действующие агенты делают это. Так что, неважно, положите это или нет.

Если у вас есть данные, которые вы также не видите на сайте, вы можете просто изменить разрешение и повысить безопасность.

...