Зависит от того, какую обработку вы хотите выполнить. Вы можете указать Tidy генерировать XHTML, который является типом XML, что означает, что вы можете использовать все обычные инструменты XML, такие как XSLT и XQuery, для результатов.
Если вы хотите обработать их в Microsoft Excel, тогда вы сможете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует таблицу HTML в страница электронной таблицы. Затем вы можете сохранить его как CSV или как книгу Excel и т. Д. (Вы даже можете использовать это на веб-сервере - вернуть таблицу HTML, но установить заголовок Content-Type
на application/ms-vnd.excel
: Excel откроет и импортирует таблицу и сдать в электронную таблицу.)
Если вы хотите, чтобы CSV подавал данные в базу данных, вы можете использовать Excel, как и раньше, или если вы хотите автоматизировать процесс, вы можете написать программу, которая использует API-интерфейс навигации XML по вашему выбору для итерации строки таблицы и сохранить их как CSV. Модули Python Elementtree и CSV облегчили бы эту задачу.