Вы можете использовать список строк User-Agent, которые используются обычными ботами. Вы можете использовать некоторую форму определения скорости и определить, что очень высокой частотой запросов, вероятно, будет паук (или кто-то выкрадывает весь ваш сайт).
Также могут быть списки IP-адресов, используемых обычными ботами, но надежная система обнаружения, скорее всего, невозможна.
Вы можете создать на своих страницах ссылку, на которую настоящий посетитель никогда не нажмет, и пометить любого, кто переходит по ссылке, как паука. Некоторые люди все равно нажмут на ссылку, но любопытства не избежать.