Запретить роботу сканировать определенные области сайта - PullRequest
1 голос
/ 09 февраля 2010

Я не очень разбираюсь в SEO и в том, как работают веб-пауки, поэтому прости мое невежество здесь. Я создаю сайт (с использованием ASP.NET-MVC), в котором есть области, в которых отображается информация, полученная из базы данных. Данные уникальны для пользователя, поэтому никакого реального кэширования вывода на стороне сервера не происходит. Однако, поскольку данные могут содержать то, что пользователь может не захотеть отображать в результатах поиска, я бы хотел запретить доступ к странице результатов поиска любым паукам. Есть ли какие-либо специальные действия, которые я должен предпринять, чтобы убедиться, что каталог результатов поиска не просканирован? Кроме того, будет ли паук сканировать страницу, которая генерируется динамически, и будут ли какие-либо действия, препятствующие поиску по определенным каталогам, портить мой рейтинг в поисковых системах?

edit: я должен добавить, я читаю по протоколу robots.txt, но он зависит от сотрудничества с веб-сканером. Однако я также хотел бы запретить всем пользователям интеллектуального анализа данных, которые будут игнорировать файл robots.txt.

Я ценю любую помощь!

Ответы [ 5 ]

2 голосов
/ 09 февраля 2010

Вы можете предотвратить попадание некоторых вредоносных клиентов на ваш сервер, применяя регулирование на сервере. «Извините, ваш IP сделал слишком много запросов к этому серверу за последние несколько минут. Пожалуйста, попробуйте позже». На практике, однако, предположим, что вы не можете помешать действительно злонамеренному пользователю обойти любые механизмы регулирования, которые вы создали.

Учитывая это, вот более важный вопрос:

Вас устраивает информация, которую вы делаете доступной для всего мира? Ваши пользователи довольны этим?

Если ответ на эти вопросы - «нет», вам следует убедиться, что только авторизованные пользователи могут видеть конфиденциальную информацию. Если информация не особенно конфиденциальна, но вы не хотите, чтобы клиенты сканировали ее, регулирование, вероятно, является хорошей альтернативой. Возможно ли, что вы все равно будете ползти? Если нет, то robots.txt должен быть в порядке.

2 голосов
/ 09 февраля 2010

Кажется, у вас есть 2 проблемы.

Во-первых, беспокойство по поводу определенных данных, появляющихся в результатах поиска. Второй о злонамеренных или недобросовестных пользователях, собирающих пользовательские данные.

Первая проблема будет решена путем правильного использования файла robots.txt, поскольку все крупные поисковые системы это соблюдают.

Вторая проблема, похоже, больше связана с конфиденциальностью данных. Первый вопрос, который сразу же приходит на ум: если есть пользовательская информация, которую люди не хотят отображать, почему вы вообще делаете ее доступной?
Какова политика конфиденциальности таких данных?
Имеют ли пользователи возможность контролировать, какая информация предоставляется?
Если информация потенциально конфиденциальна, но важна для системы, можно ли ее ограничить, чтобы она была доступна только зарегистрированным пользователям?

1 голос
/ 09 февраля 2010

robots.txt файл, как уже упоминалось.Если этого недостаточно, тогда вы можете:

  • Блокировать неизвестные пользовательские агенты - сложно обслуживать, бот легко подделать браузер (хотя большинство легитимных ботов этого не делают)
  • Блокировать неизвестный IPадреса - бесполезны для общедоступного сайта
  • Требуется вход в систему
  • Дросселировать пользовательские соединения - сложно настроить, вы все равно будете раскрывать информацию.

Возможно, используясочетание.В любом случае, это компромисс, если публика может просмотреть его, так же как и бот.Убедитесь, что вы не блокируете и не отталкиваете людей в своих попытках заблокировать ботов.

1 голос
/ 09 февраля 2010

Ознакомьтесь с стандартом исключения роботов . Это текстовый файл, который вы размещаете на своем сайте, который сообщает боту, что он может и не может индексировать. Вы также захотите узнать, что происходит, если бот не учитывает файл robots.txt.

0 голосов
/ 17 марта 2010

несколько вариантов:

  • заставить пользователя войти в систему для просмотра содержимого
  • добавить страницу CAPTCHA перед содержанием
  • вставлять контент во Flash
  • загружать динамически с JavaScript
...