Godeke прав, robots.txt - первое, что нужно сделать, чтобы боты не загружались.
Что касается подсчета, это действительно проблема веб-аналитики. Не ведете ли вы свои журналы доступа к WWW и не запускаете их с помощью аналитической программы, такой как Webalizer или AWStats (или модных альтернатив, таких как Webtrends или Urchin)? Для меня это способ сбора информации такого рода, потому что это просто, и при загрузке файла пользователь не сталкивается с PHP, перенаправлением или другими потерями производительности. Вы просто используете логи Apache, которые в любом случае ведете. (И grep -c
даст вам быстрый 'n' грязный счет для определенного файла или шаблона подстановки.)
Вы можете настроить свое программное обеспечение для статистики так, чтобы оно игнорировало попадания ботов или определенных пользовательских агентов и другие критерии (и если вы позже измените свои критерии, вы просто повторно обработаете старые данные журнала). Конечно, для этого нужно, чтобы у вас были все старые журналы, поэтому, если вы добавили в них что-то вроде logrotate
, вам придется начинать без каких-либо исторических данных.