xpath выделить весь текст, но не на боковой панели - PullRequest
0 голосов
/ 11 декабря 2018

Я пытаюсь извлечь весь текст с веб-страницы, но без информации в боковой панели и всех ее дочерних элементов.Я также не хочу иметь текст в сценарии, стиле или заголовке.Для стилей и сценариев работает следующее:

.xpath('//*[not(self::script or self::style or self::head)]/text()[normalize-space(.)]').extract()

Для боковой панели я начал наоборот, и мне удалось получить только такую ​​информацию о боковой панели:

.xpath('//*/div[@class="sidebar section"]//text()[normalize-space(.)]').extract()

Я пытался скомбинировать его, но вот так я по-прежнему получаю информацию о боковой панели, и другие попытки выдают синтаксическую ошибку:

.xpath('//*[not(self::script or self::style or self::head or div[@class="sidebar section"])]/text()[normalize-space(.)]').extract()

Любые идеи, как объединить их в разные вещи, чтобыэто работает?

...