Я собрал скребок, используя селен, python3 .6 scrapinghub crawlera на Ubuntu 18.04, который хорошо работал до сих пор. Я перебираю cars.com и начал работать несколько месяцев назад. Скребок загружает изображения со скоростью от 60 до 100 машин в час. Он остается на странице в течение нескольких минут, прежде чем перейти к следующему запросу. Тем не менее, недавно я заметил, что это замедлилось и вызвано тайм-аутом драйвера веб-сайта Selen из-за того, что время загрузки страницы превышает 600 секунд. У меня есть исключение тайм-аута, которое обрабатывает тайм-аут и выводит URL-адрес, но загрузка изображений каждый раз занимает более 10 минут
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.TimeoutException: Message: timeout
(Session info: chrome=79.0.3945.130)
После некоторой отладки я заметил, что соединение показывает запрос HTTPS не безопасно, что вызывает медленное соединение. Тем не менее, сайт является безопасным, и это раньше не показывалось, поэтому я не уверен, что изменилось. Я обновил chrome до версии 79, и у меня сложилось впечатление, что это является причиной проблемы.
Любая помощь будет очень ценной.