Паук Scrapy не загружает веб-страницы в терминале Pycharm и в командной строке (http-crawl для сканирования), но может загружаться с оболочки scrapy (shell-scrapy) * http://quotes.toscrape.com/page/1/")
Я просто добавил proxymiddleware в файл settings.py и добавил соответствующий класс промежуточного ПО в файл middlewares и добавил https_proxy & http_proxy в переменную окружения.
Я добавил это в файл settings.py.
SPIDER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
'PythonTraining.middlewares.CustomProxyMiddleware':100,
'PythonTraining.middlewares.PythontrainingSpiderMiddleware': 543
}
добавил приведенный ниже код в файл промежуточного программного обеспечения
class CustomProxyMiddleware(object):
def process_request(self, request, spider):
request.meta['proxy'] = "http://proxy.com:8080"
request.headers['Proxy-Authorization']=basic_auth_header(user,pass)
но я получаю ошибку ниже
twisted.python.failure.Failure OpenSSL.SSL.Error:
(«Подпрограммы SSL», «ssl3_get_record», «неправильный номер версии»)
twisted.python.failure.Failure OpenSSL.SSL.Error:
(«Подпрограммы SSL», «ssl3_get_record», «неправильный номер версии»)
twisted.python.failure.Failure OpenSSL.SSL.Error:
(«Подпрограммы SSL», «ssl3_get_record», «неправильный номер версии»)
Детали моего окружения
Scrapy: 1.6.0
lxml: 4.3.3.0
libxml2: 2.9.5
cssselect: 1.0.3
parsel: 1.5.1
w3lib: 1.20.0
Витая: 19.2.0
Python: 2.7.15 (v2.7.15: ca079a3ea3, 30 апреля 2018, 16:30:26) [MSC v.1500 64 бит (AMD64)]
pyOpenSSL: 19.0.0 (OpenSSL 1.1.1b 26 февраля 2019 г.)
криптография: 2.6.1
Платформа: Windows-10-10.0.17134