Этот сайт защищен Distil Networks. Они используют JavaScript, чтобы определить, что вы бот. Они пропускают некоторые запросы или вообще не пропускают? Возможно, вам удастся добиться успеха с Selenium, но, по моему опыту, они в конце концов приживутся. Решение включает в себя рандомизацию всего отпечатка браузера в зависимости от размера экрана и всего остального, что вы можете придумать. Если у кого-то есть дополнительная информация, мне было бы интересно узнать об этом. Я не уверен насчет SoF ToS на таких вещах.
Если вы загрузите прокси-сервер, такой как Charles Proxy или что-то еще, чтобы вы могли видеть все происходящее, вы можете посмотреть на все JS, на которых они работают.
Если они пропускают 0 запросов, я бы посоветовал использовать Selenium, чтобы увидеть вашу удачу.
Если они пропускают некоторых и перенаправляют других, мой опыт со временем закончится, они в конечном итоге перенаправят их всех. То, что я сделал бы, если бы они пропускали что-то, было установлено http_retry_codes = []
Просто, чтобы подробнее остановиться на этом, я сошлюсь на эту статью о том, как перебирать ваш объект навигатора с помощью Selenium, который содержит большую часть отпечатков вашего браузера. Это должно быть сделано в JS и при каждой загрузке страницы. Я не могу засвидетельствовать его эффективность против Distil. См. этот ответ
#settings.py
HTTP_RETRY_CODES = [404, 303, 304, ???]
RETRY_TIMES = 20
Затем вы можете повторить все из них, пока ваш ротатор не даст вам хороший IP-адрес, который, я подозреваю, вы увидите, что в течение короткого периода времени все они будут забанены.