Я бы хотел, чтобы можно было сканировать https-страницы с помощью scrapy + crawlera. До сих пор я использовал запросы Python со следующими настройками:
proxy_host = 'proxy.crawlera.com'
proxy_port = '8010'
proxy_auth = 'MY_KEY'
proxies = {
"https": "https://{}@{}:{}/".format(proxy_auth, proxy_host,
proxy_port),
"http": "http://{}@{}:{}/".format(proxy_auth, proxy_host, proxy_port)
}
ca_cert = 'crawlera-ca.crt'
res = requests.get(url='https://www.google.com/',
proxies=proxies,
verify=ca_cert
)
Я хочу перейти на асинхронное выполнение с помощью Scrapy. Я знаю, что есть плагин scrapy-crawlera , но я не знаю, как его настроить, когда у меня есть сертификат. Кроме того, одна вещь беспокоит меня. Crawlera поставляется с различными тарифными планами. Основным является C10, который допускает 10 одновременных запросов. Что это значит? Нужно ли устанавливать CONCURRENT_REQUESTS=10
в settings.py?