robots.txt с Disallow и метатегом, который позволяет - PullRequest
1 голос
/ 23 февраля 2011

Я отвечаю за сайт с базовым URL, таким как: https://hello.world.com/my-site/

В файле https://hello.world.com/robots.txt имеется файл robots.txt со следующим содержимым:

User-agent: *
Disallow: /

Я не могу ни редактировать, ни удалять, ни влиять на этот файл.

Однако я могу разместить теги на всех страницах в https://hello.world.com/my-site/. Я знаю, что могу добавить, например:

<meta name="robots" content="index,follow">

Мой вопрос: будут ли Google и другие поисковые системы больше отдавать предпочтение моему метатегу в https://hello.world.com/my-site/ или https://hello.world.com/robots.txt?

Заранее спасибо,

David

Ответы [ 3 ]

1 голос
/ 16 августа 2013

Директивы Robots.txt являются директивами сканера , а метатеги - директивами индексатора . Все директивы индексатора требуют сканирования. Поэтому ничто из того, что вы делаете в своей мета-версии, не будет иметь значения, если для robots.txt установлено значение disallow.

С https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Метатеги роботов и HTTP-заголовки X-Robots-Tag обнаруживаются при URL сканируется. Если страница запрещена для сканирования через файл robots.txt, затем любая информация об индексации или обслуживании директивы не будут найдены и поэтому будут игнорироваться. Если должны соблюдаться директивы индексации или обслуживания, URL-адреса, содержащие эти директивы не могут быть запрещены для сканирования.

(см. Также: http://moz.com/blog/robots-exclusion-protocol-101)

0 голосов
/ 02 декабря 2013

Зарегистрируйтесь и войдите в свою консоль google для веб-мастеров, чтобы увидеть, можете ли вы переопределить настройки robots.txt там - есть раздел для него, но я не знаю, позволяет ли он переопределить или просто дает советы.

определенно продолжайте пытаться изменить файл robots.txt - метатеги не могут переопределять файлы robots.txt, потому что файлы robots.txt по существу соответствуют сообщению типа "crawl" / "nocrawl", а не "index" /«noindex» - поэтому, когда Google видит, что не может сканировать, он никогда не проверяет, может ли он индексировать, но даже если он может, он все равно не может сканировать.

0 голосов
/ 23 февраля 2011

Google будет использовать оба, сначала robots.txt, чтобы найти путь, к которому они могут получить доступ.

И тогда Google ищет мета, с мета вы можете лучше контролировать из скрипта, какие страницы они помещают в индекс и / или следуют.

Я думаю, вы должны использовать оба. Поместите все каталоги, которые Google не должен видеть как / js в файле robots.txt и контролировать метатег из скрипта контроллера, так что вы можете установить «noindex, follow» в качестве примера. Вы не можете сделать что-то вроде «noindex, следуйте» с robots.txt.

...