Я пытаюсь извлечь весь текст с веб-страницы, но без информации в боковой панели и всех ее дочерних элементов.Я также не хочу иметь текст в сценарии, стиле или заголовке.Для стилей и сценариев работает следующее:
.xpath('//*[not(self::script or self::style or self::head)]/text()[normalize-space(.)]').extract()
Для боковой панели я начал наоборот, и мне удалось получить только такую информацию о боковой панели:
.xpath('//*/div[@class="sidebar section"]//text()[normalize-space(.)]').extract()
Я пытался скомбинировать его, но вот так я по-прежнему получаю информацию о боковой панели, и другие попытки выдают синтаксическую ошибку:
.xpath('//*[not(self::script or self::style or self::head or div[@class="sidebar section"])]/text()[normalize-space(.)]').extract()
Любые идеи, как объединить их в разные вещи, чтобыэто работает?