Руководство для хорошего веб-сканера «Этикет» - PullRequest
3 голосов
/ 09 июня 2009

Я создаю поисковую систему (для удовольствия), и меня только что поразило, что потенциально мой маленький проект может нанести ущерб кликам по рекламе и множеству проблем.

Итак, каковы рекомендации для хорошего веб-сканера «Этикет»?

Вещи, которые приходят на ум:

  1. Соблюдайте инструкции Robot.txt
  2. Ограничить количество одновременных запросов одним и тем же доменом
  3. Не переходите по рекламным ссылкам?

Отключение сканера от кликов по объявлениям - В данный момент это особенно важно для меня ... как мне остановить моего бота от "клика" по рекламе? если он идет прямо по ссылке в объявлении, считается ли он кликом?

Ответы [ 2 ]

3 голосов
/ 09 июня 2009

Вы не читаете только инструкцию robots.txt. Вы также должны увидеть метатеги с noindex и nofollow .

Насчет вопроса об объявлении, я не уверен, но, думаю, если вы просто прочитаете ссылки, а затем в другой раз зайдете на страницу, то на этой странице не будет никакой информации о том, как вы получили этот адрес, и не сможете взимать плату за «псевдоклик»

2 голосов
/ 09 июня 2009

Не переходить по ссылкам, помеченным как rel = "nofollow".

Кроме того, вам не нужно беспокоиться о рекламе. Если вы размещаете только HTML-текст страницы, то в большинстве случаев там нет рекламных ссылок - они создаются на клиенте с использованием javascript.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...