Как написать XPath для захвата текста, который не помечен - PullRequest
1 голос
/ 01 сентября 2009

Я пытаюсь удалить отзывы клиентов с сайта и столкнулся с интересной установкой.

<div class="Review">
  <img class="stars" etc>
  <b>ReviewerName</b>
  - yyyy-mm-dd
  <br/>
  <p>Review</p>
  <a>was this helpful links</a>
  <hr/>
  <br/>
  <!-- Repeat above for additional reviews. -->
</div>

Для жизни я не могу придумать XPath, который будет захватывать дату (- yyyy-mm-dd), поскольку вокруг нее нет HTML-форматирования. У кого-нибудь есть решение?

Jon

1 Ответ

2 голосов
/ 01 сентября 2009

Предполагая такую ​​структуру:

<div class="Review">
    <img class="stars"/><b>ReviewerName</b> - yyyy-mm-dd<br/>
</div>

Следующий xpath выбирает дату yyyy-mm-dd

substring-after(/div/b/following-sibling::text()[1],' - ')
...