Как игнорировать веб-сканеры? - PullRequest
1 голос
/ 01 августа 2011

У меня есть страница, которая подсчитывает, сколько раз посетил пользователь (зарегистрированный, гость, все виды пользователей ...).

Поэтому я обновляю поле в базе данных каждый раз, когда страница просматривается; да, также, если страница обновляется быстро, но я не против этого.

Конечно, когда некоторые боты / сканеры сканируют мой сайт, они увеличивают это значение, и я избавлюсь от этого. Итак, есть ли список IP-адресов, которые следует игнорировать? Или какой-то механизм, который может помочь мне сделать это?

Ответы [ 3 ]

3 голосов
/ 01 августа 2011

Еще один способ сделать это с помощью AJAX.Большинство сканеров не разбирают javascript.

1 голос
/ 01 августа 2011

У большинства людей нет статического IP-адреса. Вы настроили robots.txt , чтобы запретить доступ сканерам / ботам? Вы можете периодически запрашивать файлы журналов, чтобы попытаться определить те, которые не соответствуют robots.txt, хотя пользовательский агент легко подделан / изменен.

1 голос
/ 01 августа 2011

IP-адреса могут меняться, поэтому это не лучший способ определить, является ли посетитель ботом. Вместо этого я предлагаю посмотреть на строку user-agent в параметрах HTTP-запроса.

Вот список строк user-agent: http://www.user -agents.org / . Посмотрите конкретно под тип R для «роботы, гусеничный, паук».

...