Мета-тег против robots.txt - PullRequest
23 голосов
/ 28 июля 2010
  1. Лучше ли использовать метатеги * или файл robots.txt для информирования пауков / сканеров о включении или исключении страницы?

  2. Есть ли какие-либопроблемы при использовании как метатегов, так и файла robots.txt?

* Например: <#META name="robots" content="index, follow">

Ответы [ 10 ]

41 голосов
/ 19 августа 2013

Есть одно существенное отличие. Согласно Google они по-прежнему будут индексировать страницу за robots.txt DENY, если страница связана с другим сайтом.

Однако, они не увидят метатег:

Хотя Google не будет сканировать или индексировать контент, заблокированный robots.txt, мы все равно можем найти и проиндексировать запрещенный URL из других мест в Интернете. В результате URL-адрес и, возможно, другая общедоступная информация, такая как якорный текст в ссылках на сайт, все еще могут появляться в результатах поиска Google. Вы можете полностью запретить отображение своего URL в результатах поиска Google с помощью других методов блокировки URL, таких как защита паролем файлов на вашем сервере или с помощью метатега noindex или заголовка ответа .

4 голосов
/ 28 июля 2010

Оба поддерживаются всеми сканерами, которые уважают пожелания веб-мастеров.Не все делают, но против них ни одна техника не достаточна.

Вы можете использовать правила robots.txt для общих вещей, например запретить целые разделы вашего сайта.Если вы говорите Disallow: /family, то все ссылки, начинающиеся с /family, не индексируются сканером.

Метатег можно использовать для запрета одной страницы.Страницы, запрещенные метатегами, не влияют на подстраницы в иерархии страниц.Если у вас есть мета-тег запрещения на /work, это не мешает сканеру получить доступ к /work/my-publications, если на разрешенной странице есть ссылка на него.

2 голосов
/ 28 июля 2010

Robots.txt ИМХО.

Опция метатега говорит ботам не индексировать отдельные файлы, тогда как Robots.txt может использоваться для ограничения доступа ко всем каталогам.

Конечно, используйте метатег, если у вас есть нечетная страницав индексированных папках, которые вы хотите пропустить, но обычно я рекомендую вам большую часть неиндексированного контента в одной или нескольких папках и использовать robots.txt для пропуска лота.

Нет, нетпроблема в использовании обоих - если есть конфликт, в общих чертах, deny отменяет allow .

1 голос
/ 04 марта 2019

Вот мои знания о них. Я говорю об их рабочей области. Оба мы можем использовать для блокировки контента.

Разница между ними:

  • Meta Robot может блокировать одну страницу с помощью некоторого фрагмента вставленного кода в заголовке сайта Используя метатег, мы сообщаем поисковику, для какой функции мы используем метатег.
  • В файле Robots.txt вы можете заблокировать весь сайт.

Вот пример мета-робота:

<meta name="robots" content="index, follow"> 
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />

Вот пример файла Robots.txt:

Разрешение сканерам сканировать весь веб-сайт

user-agent: *
Allow:
Disallow:

Запрещение сканерам сканировать весь сайт

user-agent: *
Allow:
Disallow:/
1 голос
/ 18 июля 2014

Существует огромная разница между meta robot и robots.txt.

В robots.txt мы спрашиваем сканеры, какую страницу вы должны сканировать, а какую - исключить, но мы не спрашиваемсканер, чтобы не индексировать эти исключенные страницы из сканирования.

Но если мы используем метатег роботов, мы можем попросить сканеры поисковых систем не индексировать эту страницу. Тег, который будет использоваться для этого:

<# meta name = "имя робота", content = "noindex"> (удалить #)

ИЛИ

<# meta name = "имя робота", content = "follow,noindex "> (удалить #)

Во втором метатеге я попросил робота следовать этому URL, но не индексировать в поисковой системе.

0 голосов
/ 12 августа 2014

Вы хотите использовать 'noindex, follow' в метатеге robots , а не robots.txt, поскольку это позволит пропускать сок ссылок. Это лучше с точки зрения SEO.

0 голосов
/ 15 февраля 2014

meta лучше.

Чтобы исключить отдельные страницы из индексов поисковых систем, метатег noindex фактически превосходит robots.txt.

0 голосов
/ 23 января 2014

Robots.txt хорош для страниц, которые потребляют много вашего бюджета сканирования, таких как внутренний поиск или фильтры с бесконечной комбинацией.Если вы разрешите Google индексировать yoursite.com/search=lalalala, это потратит впустую ваш бюджет.

0 голосов
/ 20 августа 2013

Вы можете иметь любой, но если на вашем веб-сайте много веб-страниц, robots.txt прост и уменьшает временные затраты

0 голосов
/ 28 июля 2010

Я бы, вероятно, использовал robots.txt вместо тега meta. Robots.txt существует дольше и может быть более широко поддержан (но я не уверен в этом на 100%).

Что касается второй части, я думаю, что большинство пауков примут любой наиболее ограничивающий параметр для страницы - если существует несоответствие между robots.txt и метатегом.

...