XPath: как извлечь несколько строк таблицы, содержащих определенную строку - PullRequest
0 голосов
/ 19 марта 2020

Мне нужно извлечь данные из Workflow-Protocols, которые записаны в html. В целом это одна огромная таблица с множеством строк-таблиц, каждая из которых содержит 7 элементов td. Большая часть данных - это ненужные данные, создаваемые рабочим процессом, но некоторые данные относятся к подразделениям или пользователям. В начале каждого блока, который содержит информацию, которую я хочу извлечь, всегда есть строка, которая содержит <td>Deployed to</td>. Поэтому я использовал оператор XPath: //body/table/tbody/tr[td = "Deployed to"]/td[3]/div//span[text()], чтобы вернуть мне все имена частей рабочего процесса. Теперь у меня есть имена, которые я хочу найти, чтобы я мог получить всю информацию, похожую на блок (несколько строк таблицы). К сожалению, эти имена находятся внутри элементов span, поэтому два следующих выражения XPath не совсем то, что я хочу.

//tbody/tr/td/div/span[text()="Kontrolle der digitalisierten Rechnung"]  #every line where it occours but nothing more

//body/table/tbody/tr[td = "Kontrolle der digitalisierten Rechnung"]   #only first line where it occours```

...