Scrapy: извлечение текста и гиперссылки с использованием xpath - PullRequest
0 голосов
/ 28 сентября 2018

Я пытаюсь очистить весь текст абзаца, включая текст гиперссылки, внутри определенного класса div.Если я использую следующее -

item['body']=response.xpath('//div[@class="example-class"]//p/text()').extract()

, это приводит к извлечению всего текста абзаца, но не к гиперссылкам внутри него.Результаты выглядят следующим образом:

Чтобы найти больше информации, вы можете ,, и продолжить расследование.

Однако, если я использую // a вместо // p следующим образом-

item['body']=response.xpath('//div[@class="single-content"]//a/text()').extract()

это приводит к извлечению всех гиперссылок, но не к тексту абзаца.

Я понимаю, почему это происходит, но не уверен, как правильно извлечь текст абзаца и текст с гиперссылками.Большое спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...