Вращающиеся прокси для очистки - PullRequest
10 голосов
/ 19 декабря 2009

У меня есть веб-сканер python, и я хочу распределить запросы на загрузку между многими прокси-серверами, возможно, с запущенным squid (хотя я открыт для альтернатив). Например, он может работать в циклическом режиме, когда request1 переходит к proxy1, request2 к proxy2 и, в конечном итоге, возвращается обратно. Есть идеи, как это настроить?

Чтобы сделать его сложнее, я также хотел бы иметь возможность динамически изменять список доступных прокси, выводить некоторые из них и добавлять другие.

Если это имеет значение, IP-адреса назначаются динамически.

Спасибо:)

Ответы [ 3 ]

14 голосов
/ 23 декабря 2011

Я настроил вращающиеся прокси, используя HAProxy + DeleGate + Multiple Tor Instances. С Tor у вас нет хорошего контроля пропускной способности и задержек, но это полезно для просмотра веб-страниц. Я только что опубликовал статью на эту тему: Запуск ваших собственных анонимных вращающихся прокси

6 голосов
/ 20 декабря 2009

Сделайте так, чтобы у вашего сканера был список прокси, и с каждым HTTP-запросом разрешайте ему использовать следующий прокси из списка в циклическом порядке. Однако это не позволит вам использовать постоянные соединения HTTP / 1.1. Изменение списка прокси в конечном итоге приведет к использованию нового или не использования прокси.

Или открывайте несколько подключений параллельно, по одному на каждый прокси, и распределяйте запросы на сканирование для каждого из открытых подключений. Динамика может быть реализована путем регистрации коннетора в диспетчере запросов.

1 голос
/ 15 августа 2017

Редактировать: есть даже оболочка Python для gimmeproxy: https://github.com/ericfourrier/gimmeproxy-api

Если вы не возражаете против Node, вы можете использовать списки прокси для сбора общедоступных прокси и check-proxy для их проверки. Именно так работает https://gimmeproxy.com, подробнее здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...