Извлечь значения столбцов таблицы, используя xpath, исключая <sup> - PullRequest
0 голосов
/ 22 ноября 2018

Я пытаюсь отбросить некоторые значения столбцов таблицы, используя scrapy, и застрял в том, как получить значение столбца.Код сейчас

response.xpath('//table//tr//td[4]//text()').extract()

Он извлекает значения столбцов, но проблема в том, что некоторые столбцы имеют

<td> value 1 <sup> sup text </sup> </td> 

, а возвращаемые значения value1 , sup text, что не то, что яМне нужно только. Я попробовал код с td[4][not(sup)], но он полностью игнорирует столбцы с <sup>.

Есть ли способ получить значения, исключая <sup>.

1 Ответ

0 голосов
/ 22 ноября 2018

Вам нужно

//td[4]/text()

, чтобы получить дочерний текстовый узел .Обратите внимание, что //td[4]//text() - возвращает нисходящие текстовые узлы (включая текст из sup)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...