Заблокировать web-скраперы непросто, а еще сложнее избежать ложных срабатываний.
В любом случае вы можете добавить некоторый нетрандж в белый список и не показывать им капчу.
Все эти хорошо известные сканеры: Bing, Googlebot, Yahoo и т. Д. При сканировании всегда используют специальные диапазоны, и все эти IP-адреса разрешаются для определенных обратных поисков.
Несколько примеров:
Google IP 66.249.65.32 разрешает crawl-66-249-65-32.googlebot.com
Bing IP 157.55.39.139 разрешается в msnbot-157-55-39-139.search.msn.com
Yahoo IP 74.6.254.109 разрешается в h049.crawl.yahoo.net
Итак, допустим, что '*. Googlebot.com ', '*. Search.msn.com ' и '*. Crawl.yahoo.net адреса должны быть в белом списке.
Существует множество белых списков, которые вы можете реализовать в Интернете.
Сказал, что я не верю, что Captcha - это решение против продвинутых скребков, так как такие службы, как deathbycaptcha.com или 2captcha.com обещают решить любой вид капчи секунд.
Пожалуйста, загляните в нашу вики http://www.scrapesentry.com/scraping-wiki/ мы написали много статей о том, как предотвращать, обнаруживать и блокировать веб-скребки.