Как веб-сканеры влияют на статистику сайта? - PullRequest
1 голос
/ 12 апреля 2010

Каким образом веб-сканеры (как из поисковых, так и не поисковых систем) могут влиять на статистику сайта (например, при проведении AB-тестирования различных вариантов страницы)?И как можно решить эти проблемы?

Например:

  1. Многие ли люди, пишущие сканеры, часто удаляют свои файлы cookie и маскируют свои IP-адреса, поэтомучто веб-сканеры часто отображаются как разные пользователи при каждом сканировании сайта?

  2. Какую эвристику использовать, чтобы распознать, что что-то является ботом?(Я предполагаю, что любой достаточно сложный бот может быть неотличим от реального пользователя, если он хочет - это правильно?)

Просто чтобы уточнить, основываясь на комментариях ниже:Меня также интересует случай, когда мой сайт является целевым (возможно, незаконным сканером).

Ответы [ 2 ]

4 голосов
/ 12 апреля 2010

Несколько простых способов обнаружить бота:

  1. Хиты до /robots.txt - только боты (и гики, которые в любом случае могут быть почти роботами) будут смотреть на это.
  2. Пользовательский агент - ответственные боты часто имеют URL-адрес в своей строке UA (например, msnbot/2.0b (+http://search.msn.com/msnbot.htm или Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130), так что это довольно сильный признак бота.
  3. JavaScript - боты не будут его запускать, поэтому, если вы, например, используете JavaScript для установки cookie, когда бы вы ни увидели этот cookie на сервере, вы можете быть уверены, что он был отправлен «настоящим» браузером.
  4. Исходные IP-адреса - законные сканеры часто имеют свои собственные домены, что показывает обратный поиск DNS (именно так Google предлагает вам идентифицировать робота Google ).

Между ними у вас не должно возникнуть проблем с выяснением того, какие хиты исходят от роботов, а какие - от реальных людей.

Наконец, всегда будут противные и / или глупые боты, которых трудно обнаружить. Но, по крайней мере, по моим наблюдениям, не слишком многих из них в дикой природе.

1 голос
/ 04 марта 2013

Сканеры часто сканируют по порядку - например, первая ссылка на вашей странице, а затем вторая ссылка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...