robots.txt ограничивает поисковые системы, индексирующие указанные ключевые слова для конфиденциальности - PullRequest
1 голос
/ 27 ноября 2009

У меня есть большой каталог отдельных имен вместе с общедоступной общедоступной и специфичной для категории информацией, которую я хочу максимально проиндексировать в поисковых системах. Размещение этих имен на самом сайте не является проблемой для людей, но некоторые не хотят появляться в результатах поиска, когда они сами "Google".

Мы хотим продолжить перечисление этих имен на странице И по-прежнему индексировать страницу, НО не индексировать указанные имена или ключевые слова в поисковых системах.

Может ли это быть сделано постранично или лучше настроить две страницы:

Доступные опции:

  • PHP может подвергать цензуре ключевые слова, если user-agent = робот / поисковая система
  • htaccess для ограничения роботов нецензурным контентом, но допускает вторую цензурированную версию
  • метатеги определение слов, которые не нужно индексировать?
  • JavaScript может скрывать ключевые слова от роботов, но в противном случае их можно просмотреть

Ответы [ 3 ]

1 голос
/ 27 ноября 2009

Я перейду к опциям и расскажу о некоторых проблемах, которые я вижу:

PHP: Если вы не против доверять user agent, это будет хорошо. Я не уверен, как некоторые поисковые системы будут реагировать на различный контент, отображаемый для их ботов.

htaccess: Возможно, вам придется перенаправить бота на другую страницу. Вы можете использовать параметры url, но это ничем не отличается от использования чистого решения PHP. Бот будет индексировать страницу, на которую он перенаправлен, а не ту страницу, которую вы хотите посетить. Вы можете использовать механизм перезаписи, чтобы преодолеть это.

метатеги: Даже если бы вы могли использовать метатеги, чтобы бот игнорировал определенные слова, это не гарантировало бы, что поисковые системы не будут игнорировать его, поскольку не существует установленного «стандарта» для Мета-теги. Но это не имеет значения, поскольку я никак не могу заставить бота игнорировать определенные слова или фразы, используя мета-теги.

JavaScript: Ни один бот, о котором я когда-либо слышал, исполняет (или даже читает) JavaScript при просмотре страницы, поэтому я не вижу, как это работает. Вы можете отобразить контент, который вы хотите скрыть для пользователей, используя JavaScript, и боты не смогут его видеть, но также и пользователи, у которых отключен JavaScript.

Я бы пошел по пути PHP.

0 голосов
/ 01 марта 2010

Из вашей публикации неясно, хотите ли вы защитить свои имена и ключевые слова от Google или от всех поисковых систем. Google в целом хорошо себя ведет. Вы можете использовать метатег ROBOTS , чтобы предотвратить индексацию этой страницы. Но это не помешает поисковым системам, которые игнорируют теги ROBOTS, проиндексировать ваш сайт.

Другие подходы, которые вы не предлагали:

  • Получение содержимого страницы с помощью клиентского JavaScript.
  • Заставить пользователя выполнить CAPTCHA перед отображением текста. Я рекомендую пакет reCAPTCHA , который прост в использовании.

Из всех этих подходов reCAPTCHA, вероятно, является лучшим, поскольку он также защитит от недоверчивых пауков. Но это самое обременительное для ваших пользователей.

0 голосов
/ 27 ноября 2009

Вы можете сказать роботам пропустить индексацию определенной страницы, добавив ROBOTS meta :

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

ОБНОВЛЕНИЕ: способы ограничения индексации отдельных слов, о которых я могу думать:

  1. Используйте JS, чтобы добавить их на страницу (см. Ниже).
  2. Добавить модуль на сервер, который бы убрал эти слова из отображаемой страницы.

JavaScript может выглядеть примерно так:

<p>
  <span id="secretWord">
    <SCRIPT TYPE="text/javascript">
    <!-- 
       document.write('you can protect the word by concating strings/having HEX codes etc')
    //-->
    </script>
  </span>
</p>

Серверный модуль, вероятно, лучший вариант. В ASP.NET это должно быть довольно легко сделать. Хотя не уверен насчет PHP.

...