Я попытался удалить ссылки href из тега html, используя xpath с lxml.Но xpath возвращает нулевой список, тогда как он был протестирован отдельно, и, похоже, он работает.
Код возвращает нулевое значение, тогда как xpath, похоже, работает нормально.
page = self.opener.open(link).read()
doc=html.fromstring(str(page))
ref = doc.xpath('//ul[@class="s-result-list s-col-1 s-col-ws-1 s-result-list-hgrid s-height-equalized s-list-view s-text-condensed s-item-container-height-auto"]/li/div/div[@class="a-fixed-left-grid"]/div/div[@class="a-fixed-left-grid-col a-col-left"]/div/div/a')
for post in ref:
print(post.get("href"))
I 'Я использую прокси-сервер для доступа к ссылкам, и это, кажется, работает, поскольку переменная "doc" заполняется содержимым html.Я проверил ссылки, и я на соответствующей странице, чтобы получить этот xpath.
Это ссылка, с которой я пытаюсьчтобы получить данные: https://www.amazon.com/s/ref=lp_266162_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A1%2Cn%3A173508%2Cn%3A266162%2Cn%3A3564986011&bbn=266162&ie=UTF8&qid=1550120216&rnid=266162