Извлечение даты из текста внутри HTML-тегов с использованием XPATH - PullRequest
0 голосов
/ 22 мая 2019

Извлечение даты внутри тега html с использованием подстроки xpath

Я попытался использовать подстроку в xpath

<span id="latestReplyLine"><a href="#comment-965609" class="lastScroll js-latest-reply">Latest reply</a> on May 22, 2019 by John Stoltzfus</span>

Я использую запрос ниже xpath для извлечения текста

/span[@id="latestReplyLine"]/text()[substring-after(substring-before(.,' by '), ' on ')]

Ожидаемый результат -

"May 22, 2019"

Но я получаю,

"on May 22, 2019 by John Stoltzfus"

Есть идеи?

1 Ответ

4 голосов
/ 22 мая 2019

Вы пропустили правильную строку на один пробел (on вместо on).
Улучшенное выражение XPath выглядит следующим образом:

normalize-space(substring-after(substring-before(string(/span[@id='latestReplyLine']),'by'), 'on'))

Это даст вам правильный результат.

...