Scrapy + Xpath + Python: Datapoint нельзя удалить - PullRequest
0 голосов
/ 20 сентября 2018

Я хочу очистить URL-адреса здесь: enter image description here

Я пробовал это:

response.xpath('//header[@class="geodir-entry-header"]/a/@href').extract()

response.xpath('//div[class="geodir-content "]/header/a/@href').extract()

response.xpath('//div[@class="geodir-content "]/header[@class="geodir-entry-header"]/a/@href').extract()

Все вернули пустой список.

Ответы [ 2 ]

0 голосов
/ 20 сентября 2018

Все, что вам нужно, это просто добавить тег h3, который вы случайно пропустили.

response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()

и если вы хотите получить только первый URL, добавьте

response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract_first()

или

response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()[0]
0 голосов
/ 20 сентября 2018

Работает ли у вас

response.xpath('//h3[@class="geodir-entry-title"]/a/@href').extract() или response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()

?

Похоже, вы только что пропустили тег h3, который содержит теги aтебе нужно.

...