У меня есть веб-страница, с которой мне нужно почистить некоторые данные.Проблема в том, что каждая страница может иметь или не иметь определенные данные, или она может иметь дополнительные данные выше или ниже ее в DOM, и нет никаких идентификаторов CSS, о которых можно было бы говорить.
Обычно я могу использовать либо CSS-идентификаторы, либо XPath, чтобы добраться до нужного мне узла.У меня нет этого варианта в этом случае.Я пытаюсь найти текст «метки», а затем получить данные в следующем <TD>
узле:
<tr>
<td><b>Name:</b></td>
<td>Joe Smith <small><a href="/Joe"><img src="/joe.png"></a></small></td>
</tr>
. В приведенном выше HTML-коде я буду искать:
doc.search("[text()*='Name:']")
чтобы получить узел непосредственно перед нужными мне данными, но я не уверен, как оттуда перейти.