Scrapy Nested Div Selection - PullRequest
       7

Scrapy Nested Div Selection

1 голос
/ 05 июня 2019

Я пытаюсь очистить заголовки статей от https://time.com/

Я хочу выбрать только те статьи, которые находятся под заголовком "Краткое"

Я попытался выбрать вложенный div, используяэтот код

for url in response.xpath('//div[@class="column text-align-left visible-desktop visible-mobile last-column"]/div[@class="column-tout"]/a/@href').extract():

, но он не работал

Может кто-нибудь помочь с извлечением этих конкретных статей

1 Ответ

2 голосов
/ 05 июня 2019

Вы можете найти это div по содержанию и затем получить все following-sibling:

for url in response.xpath('//div[.="The Brief"]/following-sibling::div//a/@href').extract():
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...