Я использую Scrapy с промежуточным прокси-сервером, активированным для сканирования страницы результатов поиска. Однако всякий раз, когда я делаю запрос, МОЙ IP блокируется.
Я уже пробовал:
- Использование настраиваемой линии прокси - https://stackoverflow.com/a/29716179/5286299
- Указание прокси в мета-запросе - https://stackoverflow.com/a/20608483/5286299
- Установка переменной среды http_proxy - https://stackoverflow.com/a/33369122/5286299
- Другой способ задания переменной среды http_proxy - https://stackoverflow.com/a/33774513/5286299
- Luminati прокси
- Штормовые прокси
Ничего не работает
Мои настройки.py
username = 'USERNAME'
password = 'password'
port = 'PORT'
session_id = random.random()
super_proxy_url = ('http://%s-session-%s:%s@zproxy.lum-superproxy.io:%d' %
(username, session_id, password, port))
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_proxies.RandomProxy': 100,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}
PROXY_MODE = 2
CUSTOM_PROXY = super_proxy_url
RETRY_TIMES = 10
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408, 429]
Мой паук:
class RelSpider(EmailsSpider):
name = 'rel_spider'
custom_settings = {
'ITEM_PIPELINES': {
'scott_moses_emails.pipelines.RelPipeline': 400
}
}
def __init__(self, start_urls ='', relevanceKeyword ='', rel=False):
super(RelSpider, self).__init__(rel = False)
self.start_urls = self.remove_https_www(self.read_start_urls_file(self.flags['start_urls']))
self.keyword = relevanceKeyword
def start_requests(self):
settings=get_project_settings()
for url in self.start_urls:
base_url = 'https://www.google.com/search?q=site%3A'
no_country_redirect = '&pws=0&gl=us&gws_rd=cr'
google_url = base_url + url + no_country_redirect
print google_url
yield scrapy.Request(url=google_url, callback=self.parse_count, dont_filter = True,
meta = {'root': url})
Я получаю сообщение об ошибке, уведомляющее меня о том, что мой IP-адрес заблокирован, что удивительно, поскольку я предполагал, что прокси-сервер будет скрывать мой IP-адрес.
![enter image description here](https://i.stack.imgur.com/c8q7A.png)
![enter image description here](https://i.stack.imgur.com/O8G2c.png)
Пожалуйста, помогите