Как не заблокироваться при соскобе - PullRequest
0 голосов
/ 27 апреля 2019

Я пытаюсь очистить Transfermarkt, футбольную сеть.Я пытаюсь выполнить очистку веб-страниц, но каждый раз, когда вы пытаетесь, я блокируюсь при 7-м запросе.

Я пытаюсь изменить заголовки и прокси, но всегда получаю один и тот же результат.

Этонекоторые "эксперименты" я сделал.Эти прокси работает раздельно.

user_agent_list = [here are a lot of user agents]
headers = {'User-Agent':random.choice(user_agent_list)}
url='https://www.transfermarkt.es/jadon-sancho/profil/spieler/14'

r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://121.121.117.227:3128'})
print(r)
r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://121.121.117.227:3128'})
print(r)
r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://121.121.117.227:3128'})
print(r)

#Changing proxy
r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://177.131.22.186:80'})
print(r)
r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://177.131.22.186:80'})
print(r)
r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://177.131.22.186:80'})
print(r)
#Here I get blocked
r=requests.get(url,headers='User-Agent':random.choice(user_agent_list),proxies={'http': 'http://177.131.22.186:80'})
print(r)
#And continue trying with another examples

Я должен отметить, что прокси проверены, поэтому работайте индивидуально.То, что я получаю от отпечатков, так это до тех пор, пока меня не заблокируют.Как мне это решить?Должен ли я изменить другой параметр из get?

1 Ответ

2 голосов
/ 27 апреля 2019

Основная проблема вашего скрипта в том, что вы пытаетесь подключиться к https серверу с http only прокси. Вам необходимо установить прокси для https:

proxies={'https': 'https://x.y.z.a:b'}

В вашем случае вы устанавливаете только http прокси, поэтому https запросы не проходят через него.

Обратите внимание, что прокси-серверы, которые вы указали в вашем примере, не поддержка https.

...