Question

Существует сайт \ ресурс, который предлагает некоторую общую статистическую информацию, а также интерфейс для поиска.Эти поисковые операции являются дорогостоящими, поэтому я хочу ограничить частые и непрерывные (то есть автоматические) поисковые запросы (от людей, а не от поисковых систем).

Я считаю, что существует много существующих методов и структур, которые выполняют захват некоторых сведений.защита, поэтому мне не нужно изобретать велосипед.Я использую Python и Apache через mod_wsgi.

Я знаю о mod_evasive (постараюсь его использовать), но меня также интересуют любые другие методы.

Ivan Blinkov · Answer 1 · 01 ноября 2012

Если кто-то ищет именно ваш сайт и данные там действительно достойны - в этом случае ничто не остановит достаточно умного злоумышленника.

Хотя есть некоторые вещи, которые стоит попробовать:

Сохранять счетчики использования поиска по конкретным IP-адресам и агентам пользователя. Заблокируйте их, когда будут достигнуты некоторые ежечасно / почасовые / дневные пороги.
Использовать черные списки потенциально опасных IP-адресов или уровней угрозы (например, вы можете использовать Cloudflare API для этого)
Кэшируйте частые результаты поиска, чтобы сделать их менее дорогостоящими
Возможно, это немного сумасшествие, но вы можете отобразить эту статистику на изображениях или с помощью flash / java-апплетов - это сделает их более сложными для захвата
Немного похоже на предыдущий: используйте хитрый API для доступа к результатам поиска, например, это могут быть ProtocolBuffers через WebSockets. Таким образом, кому-то, вероятно, понадобится полноценный браузер, чтобы захватить это, или, по крайней мере, придется создать хитрость вокруг node.js. Недостаток - вы потеряете законных клиентов, используя старые браузеры.

Peter Downs · Answer 2 · 19 декабря 2011

Вы можете попробовать файл robots.txt .Я полагаю, что вы просто поместили его в корень своего приложения, но на этом сайте должно быть больше деталей.Синтаксис Disallow - это то, что вы ищете.

Конечно, не все роботы уважают его, но все они должны .Все крупные компании (Google, Yahoo и т. Д.) Будут.

Вас также может заинтересовать вопрос о запрете динамических URL .

Захват \ защита паука

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Захват \ защита паука

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы