Довольно простой, немного хакерский способ: вы можете сделать это как часть двухэтапного процесса, предполагая, что вы использовали lxml.html.parse
или любой другой метод для построения DOM.
- итерация по тексту и хвостовым атрибутам узлов с заменой строк.Посмотрите на метод
iterdescendants
, который проходит через все для вас. lxml.html.clean
в соответствии с нормой
Более сложный способ состоял бы в том, чтобы обезьяна исправила lxml.html.clean
модуль.В отличие от множества lxml
, этот модуль написан на Python и довольно доступен.Например, в настоящее время существует функция _substitute_whitespace
.