Очистка HTTPS-страниц с использованием Scrapy и Crawlera - PullRequest
0 голосов
/ 05 января 2019

Я бы хотел, чтобы можно было сканировать https-страницы с помощью scrapy + crawlera. До сих пор я использовал запросы Python со следующими настройками:

proxy_host = 'proxy.crawlera.com'
proxy_port = '8010'
proxy_auth = 'MY_KEY'
proxies    = {
    "https": "https://{}@{}:{}/".format(proxy_auth, proxy_host, 
proxy_port),
    "http": "http://{}@{}:{}/".format(proxy_auth, proxy_host, proxy_port)
}
ca_cert    = 'crawlera-ca.crt'

res = requests.get(url='https://www.google.com/',
    proxies=proxies,
    verify=ca_cert
)

Я хочу перейти на асинхронное выполнение с помощью Scrapy. Я знаю, что есть плагин scrapy-crawlera , но я не знаю, как его настроить, когда у меня есть сертификат. Кроме того, одна вещь беспокоит меня. Crawlera поставляется с различными тарифными планами. Основным является C10, который допускает 10 одновременных запросов. Что это значит? Нужно ли устанавливать CONCURRENT_REQUESTS=10 в settings.py?

1 Ответ

0 голосов
/ 11 января 2019

В документации scrapy-crawlera есть раздел Конфигурация , который должен решить большинство ваших сомнений.

...