Избегать попадания дублированного контента в Google для страниц архива? - PullRequest
4 голосов
/ 28 июня 2011

Каждый пост в блоге на моем сайте - http://www.correlated.org - архивируется по своему постоянному URL.

На каждой из этих заархивированных страниц я хотел бы отобразить не только заархивированные посты, но и 10 постов, которые были опубликованы до него, чтобы люди могли лучше понять, какой контент предлагает блог.

Меня беспокоит то, что Google и другие поисковые системы будут считать эти посты дублирующимся контентом, поскольку каждый пост будет отображаться на нескольких страницах.

В другом моем блоге - http://coding.pressbin.com - я пытался обойти это, загрузив предыдущие посты как вызов AJAX, но мне интересно, есть ли более простой способ.

Есть ли способ сообщить поисковой системе, что определенный раздел страницы не должен быть проиндексирован?

Если нет, то есть ли более простой способ, чем AJAX-вызов, сделать то, что я пытаюсь сделать?

Ответы [ 3 ]

5 голосов
/ 01 сентября 2011

Предостережение: это не было проверено в реальных условиях, но должно работать на основе моего прочтения блога Google Webmaster Central и документации schema.org.В любом случае ...


Это похоже на хороший вариант использования для структурирования вашего контента с использованием микроданных .Это включает в себя разметку вашего контента как Rich Snippet типа Article , например:

   <div itemscope itemtype="http://schema.org/Article" class="item first">
      <h3 itemprop="name">August 13's correlation</h3>        
      <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p>
      <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p>
      <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p>  
   </div>

Обратите внимание на использование itemscope , itemtype и itemprop для определения каждой статьи на странице.

Теперь, согласно schema.org , который поддерживается Google, Yahoo и Bing, поисковые системы должны учитывать канонический URL, описанный itemprop="url" выше:

Канонические ссылки

Обычно ссылки указываются с использованием элемента.Например, следующие HTML-ссылки на страницу Википедии для книги «Над пропастью во ржи».

<div itemscope itemtype="http://schema.org/Book">
  <span itemprop="name">The Catcher in the Rye</span>—
  by <span itemprop="author">J.D. Salinger</a>
  Here is the book's <a itemprop="url"

href = "http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye">Wikipedia page.

Таким образом, при разметке таким образом Google должен иметь возможность правильно указать, какой фрагмент контента принадлежит какому каноническому URL, и соответствующим образом указать его в результатах поиска.

После того, как выЗавершив разметку вашего контента, вы можете протестировать его с помощью Rich Snippets инструмента тестирования , который должен дать вам хорошее представление о том, что Google думает о ваших страницах, прежде чем запускать его в производство.


ps самая важная вещь, которую вы можете сделать, чтобы избежать штрафов за дублирующийся контент, - это исправить заголовки на ваших страницах постоянных ссылок. В настоящее время все они читают ' Correlated - обнаруживают удивительные корреляции ', что приведет к значительному попаданию в ваш рейтинг.

0 голосов
/ 31 августа 2011

Вы не можете запретить Google игнорировать части веб-страницы, но вы можете разместить этот контент таким образом, чтобы поисковые системы не могли его найти. Вы можете поместить этот контент в <iframe> или передать его через JavaScript.

Мне не нравятся эти два подхода, потому что они хакерские. Лучше всего полностью блокировать эти страницы из поисковых систем, поскольку в любом случае весь контент дублируется. Вы можете сделать это несколькими способами:

  1. Заблокируйте свои архивы, используя robots.txt. Если ваши архивы находятся в своем собственном каталоге, вы можете легко заблокировать весь каталог. Вы также можете заблокировать отдельные файлы и использовать шаблоны для сопоставления с шаблонами.

  2. Используйте тег <META NAME="ROBOTS" CONTENT="noindex">, чтобы заблокировать индексацию каждой страницы.

  3. Используйте заголовок HTTP X-Robots-Tag: noindex, чтобы блокировать индексацию каждой страницы поисковыми системами. По сути, это идентично использованию тега `, хотя его легче реализовать, поскольку вы можете использовать его в файле .htaccess и применить ко всему каталогу.

0 голосов
/ 06 августа 2011

Боюсь, но я думаю, что невозможно сказать поисковой системе, что указанная информация о вашей веб-странице не должна быть проиндексирована (например, div в вашем источнике HTML). Решением этой проблемы было бы использование Iframe для контента, который вы не указали в поисковой системе, поэтому я бы использовал файл robot.text с соответствующим тегом Disallow, чтобы запретить доступ к этому конкретному файлу, связанному с Iframe.

...