Может ли веб-скребок обойти хорошую защиту дроссельной заслонки? - PullRequest
8 голосов
/ 02 февраля 2011

Предположим, что источник данных устанавливает жесткий дроссель на основе IP. Будет ли у веб-скребка какой-либо способ загрузить данные, если дроссель начнет отклонять их запросы уже в 1% загружаемых данных?

Единственная техника, которую я мог придумать для хакера, использующего здесь, это какая-то прокси-система. Но, похоже, что прокси-серверы (даже если быстрая) в конечном итоге достигли бы дросселя.

Обновление: Некоторые люди ниже упоминали большие прокси-сети, такие как Yahoo Pipes и Tor, но разве эти диапазоны IP-адресов или известные узлы выхода также не могут быть включены в черный список?

Ответы [ 7 ]

7 голосов
/ 02 февраля 2011

Можно составить список из тысяч или ядов за БЕСПЛАТНО . IPv6-адреса можно арендовать за копейки . Черт, злоумышленник может загрузить микроэкземпляр Amazon EC2 за 2-7 центов в час.

И вы хотите, чтобы люди не соскребали ваш сайт? Интернет не работает таким образом, и, надеюсь, никогда не будет.

(Я видел, что IRC-серверы выполняют сканирование портов на клиентах, чтобы определить, открыты ли следующие порты: 8080,3128,1080. Однако существуют прокси-серверы, которые используют разные порты, и также существуют законные причины для запуска прокси-сервера или чтобы эти порты были открыты, например, если вы работаете с Apache Tomcat. Вы можете увеличить его, используя YAPH, чтобы увидеть, работает ли на клиенте прокси-сервер. Фактически вы будете использовать злоумышленника тоже против них;)

2 голосов
/ 02 февраля 2011

Кто-то, использующий Tor , будет переключать IP-адреса каждые несколько минут. Раньше я запускал веб-сайт, где это было проблемой, и прибегал к блокировке IP-адресов известных выходных узлов Tor при обнаружении чрезмерной очистки. Вы можете реализовать это, если сможете найти регулярно обновляемый список узлов выхода Tor, например, https://www.dan.me.uk/tornodes

1 голос
/ 15 февраля 2011

Скребок, который хочет получить информацию, получит информацию.Таймауты, изменение имен агентов, прокси-серверов и, конечно, EC2 / RackSpace или любых других облачных сервисов, которые могут запускать и останавливать серверы с новыми IP-адресами за копейки.

1 голос
/ 14 февраля 2011

Вы можете использовать обходную сеть P2P для выполнения этой задачи. Будет доступно много IP-адресов, и не возникнет проблем, если один из них станет ограниченным. Кроме того, вы можете объединить множество клиентских экземпляров, используя некоторую конфигурацию прокси, как предлагалось в предыдущих ответах.

Я думаю, вы можете использовать YaCy , P2P-сеть с открытым исходным кодом.

0 голосов
/ 15 февраля 2011

Зависит от того, сколько времени у злоумышленника на получение данных. Если большая часть данных является статической, злоумышленнику может быть интересно запустить свой скребок, скажем, в течение 50 дней. Если он находится на линии DSL, где он может запрашивать «новый» IP-адрес два раза в день, ограничение в 1% не нанесет ему такого вреда.

Конечно, если вам нужны данные быстрее (потому что они быстро устарели), есть лучшие способы (использовать экземпляры EC2, настроить проект BOINC, если есть интерес общественности к собранным данным и т. Д.).

Или есть схема Pyramid а-ля «получить 10 людей, чтобы запустить свой искателю, и вы получите ПОРНО, или получить 100 человека, чтобы сканировать его, и вы получите МНОГО порнухи», как это было довольно распространенным явлением несколько лет назад с Ad- заполненные сайты. Из-за конкуренции (которая получает наибольшее количество рефералов) вы можете быстро получить множество узлов, работающих на вашем сканере, за очень небольшие деньги.

0 голосов
/ 02 февраля 2011

Возможно, попробуйте запустить скребок на экземплярах amazon ec2.Каждый раз, когда вас душат, запускайте новый экземпляр (с новым IP) и уничтожайте старый.

0 голосов
/ 02 февраля 2011

Я слышал о людях, использующих Yahoo Pipes для таких вещей, по сути, использующих Yahoo в качестве прокси для извлечения данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...