Я пытаюсь отсканировать описания продукта nordstrom. Я получил все ссылки на предметы (хранятся в локальной базе данных mongodb), и теперь я исхожу их, и вот примерная ссылка https://www.nordstrom.ca/s/leith-ruched-body-con-tank-dress/5420732?origin=category-personalizedsort&breadcrumb=Home%2FWomen%2FClothing%2FDresses&color=001
Мой код для паука:
def parse(self, response): items = NordstromItem() description = response.css("div._26GPU").css("div::text").extract() items['description'] = description yield items
Я также пробовал использовать scrapy shell, и возвращаемая страница пуста. Я также использую скрап-случайные агенты.
Я предлагаю вам использовать css или xpath селектор, чтобы получить необходимую информацию. Вот еще об этом: https://docs.scrapy.org/en/latest/topics/selectors.html
И вы также можете использовать css / xpath checker, чтобы помочь определить, получает ли селектор нужную вам информацию. Как это Chrome расширение: https://autonomiq.io/chropath/