Извлечение URL-адреса изображения в виде строки из класса div XP - PullRequest
0 голосов
/ 16 ноября 2018

У меня возникли проблемы с извлечением некоторых URL-адресов изображений из amazon с помощью xpath.

Вот эта страница, на которой я пытаюсь извлечь URL, например,

https://www.amazon.com/Touchscreen-Laptop-Tablet-Windows-Quad-Core/dp/B07FYX613Z/ref=sr_1_23/147-3050782-9544926?s=pc&ie=UTF8&qid=1542390985&sr=1-23&keywords=gaming+laptop&refinements=p_36%3A-100000

У меня есть это:

<div id="ivLargeImage" style="height: 573px; display: block; opacity: 1; visibility: visible; cursor: zoom-in;"><img src="https://images-na.ssl-images-amazon.com/images/I/81zqMok22fL._SL1500_.jpg" class="fullscreen" style="margin-top: 10px; margin-left: 252px; height: 553px; width: 573px;"></div>
    <img src="https://images-na.ssl-images-amazon.com/images/I/81zqMok22fL._SL1500_.jpg" class="fullscreen" style="margin-top: 10px; margin-left: 252px; height: 553px; width: 573px;">

Моя цель - извлечь https://images -na.ssl-images-amazon.com / images / I / 81zqMok22fL. SL1500 .jpg

В настоящее время я использую xpath

//div[contains(@id, "ivLargeImage")]/img/@src

, который на самом деле дает мне https://images -na.ssl-images-amazon.com / images / I/81zqMok22fL.SL1500.jpg при проверке с помощью XPath Helper

Проблема заключается в том, что при извлечении этой информации с помощью

item['img0Product']= response.xpath('//div[contains(@id, "ivLargeImage")]/img/@src').extract()

данные не отображаются вэта переменная.

РЕДАКТИРОВАТЬ: Добавлены амазонка ссылки

Ответы [ 2 ]

0 голосов
/ 17 ноября 2018

Я могу получить необходимое изображение с ниже XPath:

//div[@id="imgTagWrapperId"]/img/@data-old-hires

Попробуйте и дайте мне знать, если это не сработает, как ожидалось

0 голосов
/ 16 ноября 2018

Может быть, попробовать extract_first() вместо extract()?

extract() обычно возвращает список селекторов, а не одно значение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...