Лучший способ для приложения распознавать ботов (Googelbot / Yahoo Slurp) - PullRequest
1 голос
/ 17 декабря 2011

У меня есть сайт (Rails), и я хочу поисковым системам сканировать и индексировать его.Тем не менее, у меня также есть некоторые действия, которые я хочу записать как произошедшие - и эти действия могут быть вызваны вошедшими в систему пользователями, а также пользователями, не вошедшими в систему. Теперь, чтобы гарантировать, что подсчет не вошедших в систему, т.е.Не включайте трафик ботов. Я рассматриваю несколько вариантов и ищу руководство по дальнейшим действиям:

  1. Установить cookie для всех пользователей, если этот cookie не возвращается с тех порБоты обычно не принимают и не отправляют куки, я могу отличить ботов от анонимных людей.

  2. Проверьте заголовок и посмотрите, является ли агент ботом (некоторый белый список): Какраспознавать ботов с помощью php?

  3. Установить это действие как POST, а не GET.Боты выдают GET, чтобы они не учитывались.

  4. Любые другие подходы?

Я уверен, что людям приходилось делать это раньше, поэтомучто такое «канонический» способ решить эту проблему?

Ответы [ 2 ]

1 голос
/ 18 декабря 2011

Если вы не хотите, чтобы пауки переходили по ссылкам, вы можете использовать rel="nofollow" на них.Однако, поскольку могут быть другие ссылки, указывающие на страницы, вы, вероятно, также захотите взглянуть на заголовок User-Agent.По моему опыту, наиболее распространенные заголовки User-Agent:

0 голосов
/ 17 декабря 2011

Просто проверьте заголовок User-Agent , которого может быть достаточно для ваших целей.Обратите внимание, что пользовательский агент может выдавать себя за бота Google .Так что если вы хотите быть уверены, что нужно больше проверять.Но я не думаю, что вам нужно беспокоиться дальше, чем это.

...