Question

Я пытаюсь получить все внутри моего тега p, включая вложенный тег b, однако я получаю все остальное, кроме b.Может ли кто-нибудь помочь мне с этим?

Вот мой код:

def parse(self, response):
    images = response.css("#mw-content-text > div > table > tbody  > tr > td > a > img::attr(src)").extract_first()
    text1 = response.css("#mw-content-text > div > p::text").extract() 
    text2 = ''.join(text1)
    yield {'text2': text2, 'image_urls':[PROTOCOL+ images]}
    for next_page in response.css('#mw-content-text > div > ul > li > b > a::attr(href)').extract():
        yield Request(BASE_URL + next_page, callback=self.parse)

Apalala · Answer 1 · 22 октября 2018

Вы должны использовать пробел перед ::text, чтобы селектор извлек все текст под последним тегом:

text1 = response.css("#mw-content-text > div > p ::text").extract()

Scrapy - пытается получить текст тега из другого тега

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy - пытается получить текст тега из другого тега

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов