urllib: при открытии URL всегда получается 429: слишком много запросов - PullRequest
0 голосов
/ 17 февраля 2019

Я только начал работать с модулем urllib.Я пытаюсь вычистить продукты из супермаркетов, и есть сайт, который, кажется, всегда отвечает с HTTP Error 429: Too many requests.Я уже провел небольшое исследование переполнения стека, и, похоже, никто не сталкивался с такой же проблемой.Мой код настолько прост, насколько он может получить:

>>> import urllib.request
>>> resp = urllib.request.urlopen("https://shop.coles.com.au/a/a-national/product/head-shoulders-shampoo-conditioner-2in1-deep-clean")
Traceback (most recent call last):
  File "<pyshell#1>", line 1, in <module>
    resp = urllib.request.urlopen("https://shop.coles.com.au/a/a-national/product/head-shoulders-shampoo-conditioner-2in1-deep-clean")
  File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 222, in urlopen
return opener.open(url, data, timeout)
  File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 531, in open
response = meth(req, response)
  File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 640, in http_response
'http', request, response, code, msg, hdrs)
  File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 568, in error
return self._call_chain(*args)
  File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 503, in _call_chain
result = func(*args)
  File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 648, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 429: Too Many Requests

Я также пытался изменить пользовательский агент, как этот ответ предлагает, но результат все тот же

Может кто-нибудь объяснить, какие настройки по умолчанию внутри модуля urllib могут вызвать проблему?Или это потому, что сайт блокирует ботов?Другие страницы продукта сайта также не работают.

1 Ответ

0 голосов
/ 17 февраля 2019

429 - сервер просит вас остановиться.По сути, веб-сервер думает, что вы пытаетесь спамить или царапать, и ему это не нравится.Как правило, вы должны уважать сервер, и если через некоторое время попытка с ответом 429, вы должны следовать ему.

Если вы чувствуете, что сервер неправильно спросил вас, либо вы можете убедиться, что ваш пользовательский запрос ** аналогичен "пользовательскому запросу, сгенерированному пользователем из браузера, который будет включать в себя user-agentи вся остальная информация, которую обычный браузер будет отправлять с запросом. Если сервер отправляет вам 429. Несмотря на это, наиболее вероятно, что он заблокировал ваш ip временно или постоянно. В этом вам следует посмотреть, как просматривать несколько ips.

...