Захват \ защита паука - PullRequest
1 голос
/ 19 декабря 2011

Существует сайт \ ресурс, который предлагает некоторую общую статистическую информацию, а также интерфейс для поиска.Эти поисковые операции являются дорогостоящими, поэтому я хочу ограничить частые и непрерывные (то есть автоматические) поисковые запросы (от людей, а не от поисковых систем).

Я считаю, что существует много существующих методов и структур, которые выполняют захват некоторых сведений.защита, поэтому мне не нужно изобретать велосипед.Я использую Python и Apache через mod_wsgi.

Я знаю о mod_evasive (постараюсь его использовать), но меня также интересуют любые другие методы.

Ответы [ 2 ]

1 голос
/ 01 ноября 2012

Если кто-то ищет именно ваш сайт и данные там действительно достойны - в этом случае ничто не остановит достаточно умного злоумышленника.

Хотя есть некоторые вещи, которые стоит попробовать:

  • Сохранять счетчики использования поиска по конкретным IP-адресам и агентам пользователя. Заблокируйте их, когда будут достигнуты некоторые ежечасно / почасовые / дневные пороги.
  • Использовать черные списки потенциально опасных IP-адресов или уровней угрозы (например, вы можете использовать Cloudflare API для этого)
  • Кэшируйте частые результаты поиска, чтобы сделать их менее дорогостоящими
  • Возможно, это немного сумасшествие, но вы можете отобразить эту статистику на изображениях или с помощью flash / java-апплетов - это сделает их более сложными для захвата
  • Немного похоже на предыдущий: используйте хитрый API для доступа к результатам поиска, например, это могут быть ProtocolBuffers через WebSockets. Таким образом, кому-то, вероятно, понадобится полноценный браузер, чтобы захватить это, или, по крайней мере, придется создать хитрость вокруг node.js. Недостаток - вы потеряете законных клиентов, используя старые браузеры.
0 голосов
/ 19 декабря 2011

Вы можете попробовать файл robots.txt .Я полагаю, что вы просто поместили его в корень своего приложения, но на этом сайте должно быть больше деталей.Синтаксис Disallow - это то, что вы ищете.

Конечно, не все роботы уважают его, но все они должны .Все крупные компании (Google, Yahoo и т. Д.) Будут.

Вас также может заинтересовать вопрос о запрете динамических URL .

...