Как я могу получить контент извне тега HTML с помощью xpath - PullRequest
0 голосов
/ 02 марта 2020

Я изучал веб-скраптинг и попал в следующую ситуацию

<br>
<b style="" xpath="1">Data de autuação</b>
<br>
29/06/2018 - 17:53:48
<br>
<br>
<b>Estado</b>

Как я могу получить текст '29 / 06/2018 - 17:53:48 'с помощью xpath?

1 Ответ

0 голосов
/ 02 марта 2020

Поскольку текст находится не между тегами, и чтобы избежать пробелов, вы можете использовать что-то вроде этого:

normalize-space(substring-before(substring-after(string(//body),//b[@xpath="1"]/text()),//b[last()]/text()))

Мы получаем весь текст внутри тега body со строкой и обрезаем ненужные части подстрокой команды. Мы заканчиваем sh с нормализованным пробелом, чтобы получить чистый результат.

...