Есть ли способ заставить роботов игнорировать определенный текст? - PullRequest
25 голосов
/ 08 июля 2010

У меня есть мой блог (вы можете увидеть его, если хотите, из моего профиля), и он свежий, а также результаты разбора роботов Google.

Результаты меня тревожили.По-видимому, наиболее распространенными 2 словами на моем сайте являются «rss» и «feed», потому что я использую текст для таких ссылок, как «Comments RSS», «Post Feed» и т. Д. Эти 2 слова будут присутствовать в каждом сообщении, в то время как другие словабудет более редким.

Есть ли способ заставить эти ссылки исчезнуть из анализа Google?Я не хочу, чтобы технические ссылки были проиндексированы.Я только хочу, чтобы контент, заголовки, описания были проиндексированы.Я ищу что-то кроме замены этого текста изображениями.

Я нашел несколько старых обсуждений в Google, начиная с 2007 года (я думаю, что через 3 года многое могло измениться, надеюсь, это тоже)

Этот вопрос не о robots.txt, а о том, как заставить Google игнорировать страницы.Речь идет о том, чтобы заставить его игнорировать небольшие части страницы или преобразовать части таким образом, чтобы они были видны людям и не были видны роботам.

Ответы [ 9 ]

15 голосов
/ 23 сентября 2014

Существует простой способ заставить Google не индексировать части ваших документов, используя googleon и googleoff:

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index-->

В этом примере второй абзац не будет проиндексированот Google.Обратите внимание на параметр «index», который может быть установлен на любой из следующих параметров:

  • index - содержимое, окруженное «googleoff: index», не будет проиндексировано Google

    anchor - якорный текст для любых ссылок в области «googleoff: anchor» не будет связан с целевой страницей

    snippet - содержимое, окруженное «googleoff: snippet», не будетиспользоваться для создания фрагментов для результатов поиска

    all - содержимое, окруженное «googleoff: all», обрабатывается всеми

источником

8 голосов
/ 09 июля 2010

Я работаю на сайте с топ-3 рейтинга Google по тысячам названий школ в США, и мы много работаем над защитой нашего SEO. Вы можете сделать 3 основных вещи (которые, вероятно, являются пустой тратой времени, продолжайте читать):

  • Переместите материал, который вы хотите преуменьшить, в конец вашего HTML-кода и используйте CSS и / или разместите его там, где вы хотите, чтобы читатели увидели его. Это не скроет это от сканеров, но они будут ценить это ниже.
  • Замените эти ссылки изображениями (вы говорите, что не хотите этого делать, но не объясняете, почему нет)
  • Предоставить сканерам другую страницу с удалением этих ссылок. В этом нет ничего черного, если контент в основном такой же, как браузер. Поисковые системы будут вам звонить, если вы откроете страницу, которая значительно отличается от того, что видят пользователи, но если вы удалите ссылки RSS из версии индекса поисковых роботов, у вас не будет проблем.

Тем не менее, сканеры умны, и вы не единственный сайт, заполненный постоянными ссылками и ссылками rss. Они заботятся о контексте и ищут термины и фразы в ваших заголовках и основном тексте. Они знают, как определить, что ваш блог посвящен технологиям, а не RSS. Я очень сомневаюсь, что эти ссылки имеют негативное влияние на ваш SEO. Какую проблему вы на самом деле пытаетесь решить?

Если вы хотите создать SEO, выясните, какую ценность вы предоставляете читателям, и напишите об этом. Скажите интересные вещи, которые приведут других людей к вашему блогу, и сканеры поймут, что вы являетесь источником информации, который ценят люди. Думайте больше о том, что ваши читатели видят и понимают, и меньше о том, что вы думаете гусеничный робот.

1 голос
/ 24 января 2019

"googleon" и "googleoff" поддерживаются только Google Search Appliance (когда вы размещаете собственные результаты поиска, обычно для своего внутреннего веб-сайта).

Они не поддерживаются веб-поиском Googleсовсем.Поэтому, пожалуйста, воздержитесь от этого, и я думаю, что это не должно быть помечено как правильный ответ, так как это может создать двусмысленность.

Теперь, чтобы Google исключил часть страницы, вам нужно будет поместить этот контент вотдельный файл, такой как exclude.html, и используйте iframe для отображения этого содержимого на странице хоста.

Тег iframe извлекает контент из другого файла и вставляет его на страницу хоста.,Я думаю, что пока нет другого доступного метода.

1 голос
/ 17 марта 2014

Сканер Google умный, но тот, кто его программирует, самый умный.Люди всегда видят то, что разумно на странице, они проводят время в блоге, который имеет приятный контент и самый редкий и уникальный.Все дело в здравом смысле, как люди посещают ваш блог и сколько времени они проводят.Google измеряет результат поиска таким же образом.Рейтинг вашей страницы также увеличивается по мере увеличения числа ежедневных посещений, улучшения содержания и обновления контента каждый день.На этой странице есть слова "Ответить", повторенные несколько раз.Это не значит, что он не будет проиндексирован.Это насколько полезно для каждого.Я надеюсь, что это даст вам некоторое представление

1 голос
/ 09 августа 2013

Сначала подумайте о проблеме.Если Google считает «RSS» основным словом, которое может указывать на то, что остальная часть вашего контента немного поверхностна и нуждается в расширении.Возможно, это должно быть в центре вашего внимания. Если остальная часть вашего контента богата, я не буду беспокоиться об этой проблеме, так как поисковая система должна знать, о чем эта страница, из заголовка и заголовков.Просто убедитесь, что RSS и т. Д. Не находятся в заголовке, жирном или сильном теге.

Во-вторых, как вы правильно заметили, вы, вероятно, не хотите использовать изображения, поскольку они не могут быть оценены программами чтения с экрана без альтернативного текста, и еслиЕсли у вас есть альтернативный текст или вспомогательный текст, то вы добавляете ключевое слово обратно. Однако aria live может помочь вам обойти эту проблему, но я не специалист по доступности.

Параметры :

  • Используйте JavaScript для записи этого фрагмента содержимого (возможно, добавьте его после загрузки).Такие поисковые системы, как Google, могут выполнять JavaScript, но я думаю, что он не будет высоко ценить любой написанный на JS контент.
  • Перефразировать контент или удалять его дубликаты, одна заметная ссылка на RSS-канал может быть лучше, чем несколько меньших.разбросаны по странице.
  • Используйте атрибут содержимого css с псевдо: before или: after, чтобы добавить свой контент.Я не уверен, будут ли боты индексировать слова в атрибутах контента в CSS и знают, что это значение контента по отношению к каждой странице, но это кажется маловероятным.Помещение в CSS таких слов, как RSS, в основном говорит о том, что это стиль, а не HTML, поэтому, даже если движки его индексируют, они не добавят к нему большого / какого-либо значения.Например, HTML и CSS могут быть:

    <a href="/my-feed.rss" class="add-text"></a>
    
    .add-text:after { content:'View my RSS feed'; }
    

Обратите внимание, что выше не будет работать в более старых версиях IE, поэтому вам могут потребоваться некоторые комментарии к версии IE, если вы заботитесь об этом.

1 голос
/ 09 июля 2010

Кроме черных методов на стороне сервера, вы ничего не можете сделать. Возможно, вы захотите узнать, почему у вас есть такие слова, и удалить некоторые из них с сайта.

Раньше вы могли использовать JS, чтобы "спрятать" вещи от googlebot, но вы не можете теперь, когда он анализирует JS. (http://www.webmasterworld.com/google/4159807.htm)

1 голос
/ 08 июля 2010

Единственный элемент управления, который у вас есть над индексирующими роботами, - это файл robots.txt. См. эту документацию , связанную с Google на их странице, объясняющей использование файла .

Вы можете запретить определенные ссылки и URL, но не обязательно ключевые слова.

0 голосов
/ 09 июля 2010

Нет, на самом деле ничего подобного нет. Существуют различные методы на стороне сервера, но если Google поймает, что вы посылаете другому боту другой текст, чем вы предоставляете посетителям сайта, это накажет вас.

0 голосов
/ 09 июля 2010

Вы должны вручную определить «Google Bot» из пользовательского агента запроса и передать им немного другой контент, чем вы обычно предоставляете своему пользователю.

...