Hiall,
Я борюсь с этим уже пару дней.Я в значительной степени перепробовал все, что мог придумать и все в сети.Я пытаюсь извлечь текст из таблицы (из каждой), как показано в браузере, независимо от дополнительных «и» (я уверен, что есть и другие случаи).Я думаю, что это в значительной степени показывает проблему (я держал это как можно короче).
<html>
<head></head>
<body>
<table class='infobox vcard' style="font-size: 95%" id="sortable_table_id_0">
<tbody>
<tr>
<td><a href="/wiki/Germania_(airline)" title="Germania (airline)">Germania</a></td>
<td><b>Seasonal</b>: Munich, Nuremberg [begins 31 July]
<sup id="cite_ref-4" class="reference"><a href="#cite_note-4"><span>[</span>5<span>]</span></a></sup>
</td>
</tr>
</tbody>
</table>
</body>
</html>
Лучшее, что я придумал, это:
xpath("//table[@class='infobox vcard']/descendant::*[not(@class='reference') and text()]")
Однако, когда я перебираю массив, порядок текста неправильный.Например, последний элемент () будет иметь вид:
Мюнхен, Нюрнберг [начинается 31 июля] Сезонное 5 []
Есть идеи?
Большое спасибо, Стив