Я пытаюсь извлечь из таблицы названия городов футбольных команд. Я использую python библиотеки l xml и запросы. некоторые элементы содержат свои имена в форме элемента name, а некоторые только с именем
, например, Arsenal form -> принадлежит London, а имя London помещено внутри
Element='<tr>
<td>
<a href="/wiki/Arsenal_F.C." title="Arsenal F.C.">Arsenal</a>
</td>
<td>
<a href="/wiki/London" title="London">London</a>
<span style="font-size:85%;">(<a href="/wiki/Holloway,_London" title="Holloway, London">Holloway</a>)</span>
</td>
<td>
<a href="/wiki/Emirates_Stadium" title="Emirates Stadium">Emirates Stadium</a>
</td>
<td style="text-align:center">
<span data-sort-value="7004607040000000000♠">60,704</span>
</td>
</tr>'
и "Челси", который также принадлежит к Лондону, но не находится в нем, поскольку автор уже дал ссылку на упоминание Лондона в элементе "Арсенала".
Element='<tr>
<td>
<a href="/wiki/Chelsea_F.C." title="Chelsea F.C.">Chelsea</a>
</td>
<td>London <span style="font-size:85%;">(<a href="/wiki/Fulham" title="Fulham">Fulham</a>)</span>
</td>
<td>
<a href="/wiki/Stamford_Bridge_(stadium)"
title="Stamford Bridge (stadium)">Stamford Bridge</a>
</td>
<td style="text-align:center">
<span data-sort-value="7004408340000000000♠">40,834</span>
</td>
</tr>'
В настоящее время мой XPath-запрос для получения имен //table[2]/tbody//tr[position() > 1]//td[2]/a/text()
, но, очевидно, он не дает мне название города Челси, как я спрашиваю только для текстовых мест в элементе. Кроме того, мне нужно, чтобы они были в порядке расположения футбольных команд в таблице, чтобы их не было в двух разных списках.
Есть ли удобный способ сделать это?