Question

Я пытаюсь отсканировать описания продукта nordstrom. Я получил все ссылки на предметы (хранятся в локальной базе данных mongodb), и теперь я исхожу их, и вот примерная ссылка https://www.nordstrom.ca/s/leith-ruched-body-con-tank-dress/5420732?origin=category-personalizedsort&breadcrumb=Home%2FWomen%2FClothing%2FDresses&color=001

Мой код для паука:

def parse(self, response):
    items = NordstromItem()
    description = response.css("div._26GPU").css("div::text").extract()
    items['description'] = description
    yield items

Я также пробовал использовать scrapy shell, и возвращаемая страница пуста. Я также использую скрап-случайные агенты.

Karla · Answer 1 · 02 мая 2020

Я предлагаю вам использовать css или xpath селектор, чтобы получить необходимую информацию. Вот еще об этом: https://docs.scrapy.org/en/latest/topics/selectors.html

И вы также можете использовать css / xpath checker, чтобы помочь определить, получает ли селектор нужную вам информацию. Как это Chrome расширение: https://autonomiq.io/chropath/

Scrapy возвращает пустые списки при использовании css

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy возвращает пустые списки при использовании css

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов