удалить код стиля CSS, когда я получаю текст веб-страницы - PullRequest
0 голосов
/ 28 января 2019

Я хотел бы получить полный текст веб-страницы, к сожалению, мой скребок также захватывает код CSS, как я могу завершить код ниже, чтобы удалить также код стиля CSS:

page = " ".join(response.xpath('//body//descendant-or-self::*[not(self::script)]/text()').extract())

1 Ответ

0 голосов
/ 29 января 2019

Попробуйте

//body//descendant-or-self::*[not(self::script or self::style)]

Я тестировал, и он работает, он исключает теги STYLE и SCRIPT

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...