Целевой сайт видит мой IP, хотя я использую прокси - PullRequest
0 голосов
/ 18 апреля 2019

Я использую Scrapy с промежуточным прокси-сервером, активированным для сканирования страницы результатов поиска. Однако всякий раз, когда я делаю запрос, МОЙ IP блокируется.

Я уже пробовал:

  1. Использование настраиваемой линии прокси - https://stackoverflow.com/a/29716179/5286299
  2. Указание прокси в мета-запросе - https://stackoverflow.com/a/20608483/5286299
  3. Установка переменной среды http_proxy - https://stackoverflow.com/a/33369122/5286299
  4. Другой способ задания переменной среды http_proxy - https://stackoverflow.com/a/33774513/5286299
  5. Luminati прокси
  6. Штормовые прокси

Ничего не работает

Мои настройки.py

username = 'USERNAME'
password = 'password'
port = 'PORT'
session_id = random.random()
super_proxy_url = ('http://%s-session-%s:%s@zproxy.lum-superproxy.io:%d' %
(username, session_id, password, port))

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_proxies.RandomProxy': 100,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}

PROXY_MODE = 2
CUSTOM_PROXY = super_proxy_url
RETRY_TIMES = 10
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408, 429]

Мой паук:

class RelSpider(EmailsSpider):

name = 'rel_spider'
custom_settings = {
    'ITEM_PIPELINES': {
        'scott_moses_emails.pipelines.RelPipeline': 400
    }
}

def __init__(self, start_urls ='', relevanceKeyword ='', rel=False):
    super(RelSpider, self).__init__(rel = False)
    self.start_urls = self.remove_https_www(self.read_start_urls_file(self.flags['start_urls']))
    self.keyword = relevanceKeyword

def start_requests(self):

    settings=get_project_settings()

    for url in self.start_urls:
        base_url = 'https://www.google.com/search?q=site%3A'
        no_country_redirect = '&pws=0&gl=us&gws_rd=cr'
        google_url = base_url + url + no_country_redirect
        print google_url
        yield scrapy.Request(url=google_url, callback=self.parse_count, dont_filter = True,
            meta = {'root': url})

Я получаю сообщение об ошибке, уведомляющее меня о том, что мой IP-адрес заблокирован, что удивительно, поскольку я предполагал, что прокси-сервер будет скрывать мой IP-адрес. enter image description here

enter image description here

Пожалуйста, помогите

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...