Это по-прежнему главный ответ на этот запрос Google, и, возможно, это потому, что я недостаточно хорошо понял вопрос.
То, что я искал (и, возможно, то, что искал OP), было дампом XML вместо дамп HTML.
Поэтому, чтобы разобрать и получить вывод, который мне нужен для правильной передачи, я использовал lxml.html, как сказал @ Тим Макнамара.
import lxml.html
# read in the file
html_obj = lxml.html.fromstring(raw_html)
# whatever other dom manipulation you need to do
lxml.html.tostring(html_obj, method='xml')