Попытка остановить webscrapers не легка. Без сложного, постоянно развивающегося решения все, что вы можете сделать, это поднять планку сложности и надеяться, что они не достаточно решительны, чтобы продолжать идти. Некоторые вещи, которые вы можете сделать:
- Ограничение скорости. Убедитесь, что вы не делаете это на основе IP, а скорее
уникальные сеансы, чтобы избежать блокировки пользователей за NAT.
- Заставить пользователей выполнять javascript для доступа к странице. Есть
несколько способов сделать это, и это значительно затрудняет
скрести, но все же не невозможно. Есть много скриптовых инструментов
(рубин, селен и т. д.), которые позволяют очищать с помощью реальной сети
браузер.
- IP Blacklists. Блокировка прокси серверов, TOR, amazon ec2 и др.
Также важно отметить, что вы должны занести в белый список поисковые системы, чтобы избежать потери SEO / трафика. Вы можете внести в белый список большинство поисковых систем, посмотрев на их пользовательский агент и сравнив их с whois их IP.
Для полного раскрытия информации я являюсь соучредителем Distil Networks , и мы предлагаем решение для предотвращения взлома в качестве услуги. Это делает меня предвзятым, потому что я не верю, что на ваш вопрос есть статичный ответ, иначе вы не можете сделать одну вещь и остановиться. Это гонка вооружений, с которой вам всегда придется сражаться.