У меня есть куча html файлов с тоннами данных, и я хочу извлечь важные части из них.
Все файлы очень похожи; Я должен искать <tr>
, который содержит определенное ключевое слово. Третий столбец этой строки таблицы всегда содержит имя «блока», который я ищу (это несколько строк таблицы).
//body/table/tbody/tr[td = "Deployed to"]/td[3]/div//span[text()]
с помощью этого запроса XPath я получаю имена (возможно, одно, а может и больше). Проблема в том, как избавиться от тегов вокруг данных?
Прямо сейчас мой вывод что-то вроде этого:
<span class="log_entry_text">Name1</span><span class="log_entry_text">Name2</span><span class="log_entry_text">Name3</span>
Я хочу иметь что-то вроде этого: Имя1 Имя2 Имя3 Так что я могу использовать его для более простого извлечения этих блоков. С помощью string () я могу извлечь только первый элемент (результат будет: Name1)
Спасибо за помощь!