Получение текущей ссылки на страницу - PullRequest
0 голосов
/ 17 октября 2018

Я пытаюсь добавить текущий URL очищенной страницы в моем скрипте.Но по какой-то причине я не могу выбрать это:

<link rel="canonical" href="https://www.cdiscount.com/sante-mieux-vivre/hygiene-beaute-parapharmacie-bio/v-16516-16516.html" />

Он вложен в head.

Я пытался response.xpath("//head/link[@rel='canonical']@href").extract()

Что я делаюнеправильно?

Ответы [ 2 ]

0 голосов
/ 17 октября 2018

Если вам действительно нужен канонический URL, это должно работать:

response.xpath("//link[@rel='canonical']/@href").get()

Ваше выражение отсутствовало / до @href.

Вы также можете использовать CSS:

response.css("link[rel='canonical']::attr(href)").get()

Если вас не интересует канонический URL, вы можете следовать предложению @ Yall выше.

0 голосов
/ 17 октября 2018

Если вам нужен только URL текущего ответа.Вы можете просто использовать response.url

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...