У меня есть файл HTML (закодированный в utf-8). Я открываю это с codecs.open()
. Файловая архитектура:
<html>
// header
<body>
// some text
<table>
// some rows with cells here
// some cells contains tables
</table>
// maybe some text here
<table>
// a form and other stuff
</table>
// probably some more text
</body></html>
Мне нужно получить только первую таблицу (откажитесь от таблицы с формой). Опустить все вводы до первого <table>
и после соответствующего </table>
. Некоторые ячейки содержат также абзацы, жирный шрифт и сценарии. В строке главной таблицы не более одной вложенной таблицы.
Как мне извлечь его, чтобы получить список строк, где каждый элемент содержит данные простой ячейки (строка в Unicode) и список строк для каждой вложенной таблицы? Там не более 1 уровня вложенности.
Я пробовал HTMLParse, PyParse и модуль re, но не могу заставить это работать.
Я новичок в Python.