Веб-скрапинг Adidas не возвращает html текст - PullRequest
1 голос
/ 07 августа 2020

Я пытаюсь очистить обувь от Adidas, используя следующий код:

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen

req = Request('https://www.adidas.com/us/men-shoes', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
soup = BeautifulSoup(webpage)
print(webpage)

По какой-то причине он не получает html страницы, хотя код, похоже, работает для другие URL-адреса, например «http://www.python.org». Может ли это быть проблемой безопасности? Если да, как я могу очистить обувь с сайта?

Кажется, я не получаю сообщения об ошибке или ответа. Кажется, что код работает бесконечно.

1 Ответ

3 голосов
/ 07 августа 2020

Код ниже работал у меня, когда я использовал User-Agent так же, как в заголовке запроса:

from bs4 import BeautifulSoup

hdr = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
html_page = requests.get("https://www.adidas.com/us/men-shoes", headers=hdr, timeout=15)

soup = BeautifulSoup(html_page.content, 'html.parser')
soup

Sample File input and output Screenshots 1

...