Можно ли запретить поисковым роботам бесконечно сканировать ссылки на страницы в результатах поиска? - PullRequest
4 голосов
/ 05 декабря 2008

Наша команда SEO хотела бы открыть нашу главную страницу результатов динамического поиска для пауков и убрать nofollow из мета-тегов. В настоящее время он доступен для пауков, разрешив путь в robots.txt, но с мета-тегом «nofollow», который запрещает паукам выходить за пределы первой страницы.

<meta name="robots" content="index,nofollow">

Я обеспокоен тем, что если мы удалим nofollow, воздействие на нашу поисковую систему будет катастрофическим, так как пауки начнут ползать по всем страницам в наборе результатов. Буду признателен за совет:

1) Есть ли способ удалить nofollow из метатега, но запретить паукам переходить только по определенным ссылкам на странице? Я прочитал смешанные мнения о rel = "nofollow", это жизнеспособный вариант?

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2) Есть ли способ контролировать «глубину» того, как далеко зайдут пауки? Было бы не так плохо, если бы они перелистали несколько страниц и остановились.

3) Наши страницы результатов поиска имеют стандартные ссылки для следующих / предыдущих ссылок, которые теоретически могут заставить пауков рекурсивно обращаться к страницам до бесконечности, как это повлияет на SEO?

Я понимаю, что разные пауки ведут себя по-разному, но в основном это касается крупных игроков, таких как Google, Yahoo, MSN.

Примечание наши страницы результатов поиска и ссылки на страницы не являются дружественными для ботов, так как они не переписаны и имеют строку запроса? Name = value, но, как я видел, пауки нет больше просто прервать, когда они видят '?' страницы результатов индексируются с достойным рейтингом страниц.

Ответы [ 3 ]

2 голосов
/ 05 декабря 2008

Я видел, как Google индексирует систему календаря, которая имела относительные ссылки на каждую страницу до конца времени (19 января 2038 года - см .: http://en.wikipedia.org/wiki/Year_2038_problem). Мы не замечали нагрузки на наши серверы до тех пор, пока выявил ошибку в исходном коде, касающуюся дат 2038 года.

Я не знаю о других поисковых системах, но Google предлагает ряд полезных инструментов для контроля того, как робот Google влияет на инфраструктуру вашего сервера. Смотри http://www.google.com/webmasters/.

В инструментах для веб-мастеров есть возможность установить скорость сканирования для вашего сайта.

2 голосов
/ 05 декабря 2008

Если честно, вы смотрите nofollow неправильно. Скорее всего, поисковые пауки уже особенно Google, Yahoo и MSN ищут на страницах nofollow, потому что им все равно нужно перейти на эти страницы, чтобы узнать, есть ли у них noindex.

Реальная проблема в том, что nofollow на самом деле не означает , не следуйте , это просто означает, что не передает мою репутацию этой ссылке . Поэтому, если вы агрессивно не блокируете ботов, что не похоже на вас, изменение метатега ROBOTS и команд робота в ссылках не повлияет на производительность, поскольку они уже попадают на ваш сайт. Чтобы подтвердить это, просто посмотрите журнал HTTP-сервера.

Так что я голосую за то, чтобы вы не увидели никаких проблем с удалением ограничений робота.

1 голос
/ 05 декабря 2008

Роботы Google достаточно умны, чтобы не обходить всю базу данных динамически генерируемых страниц, если URL-адреса дают некоторый намек на то, что они динамические (например, расширение файла .asp или .jsp и т. Д. И числовые идентификаторы в качестве запроса). параметры). Если вы используете правила перезаписи, чтобы сделать ваши URL-адреса "дружественными", тогда ботам будет сложнее определить, являются ли они статической страницей, которую они читают, или динамически генерируемой страницей. См. эту статью Google для получения дополнительной информации о динамических и статических URL.

Вы также можете подумать о создании Google Sitemap , чтобы дать ботовам лучшее представление о том, какие страницы на вашем сайте могут быть проиндексированы, а какие нет.

...