Python lxml.html переносы строк? - PullRequest
       4

Python lxml.html переносы строк?

0 голосов
/ 14 октября 2010

Я использую lxml.html.cleaner для очистки html от входного текста. как я могу изменить \n на <br /> в lxml.html?

1 Ответ

1 голос
/ 14 октября 2010

Довольно простой, немного хакерский способ: вы можете сделать это как часть двухэтапного процесса, предполагая, что вы использовали lxml.html.parse или любой другой метод для построения DOM.

  1. итерация по тексту и хвостовым атрибутам узлов с заменой строк.Посмотрите на метод iterdescendants, который проходит через все для вас.
  2. lxml.html.clean в соответствии с нормой

Более сложный способ состоял бы в том, чтобы обезьяна исправила lxml.html.clean модуль.В отличие от множества lxml, этот модуль написан на Python и довольно доступен.Например, в настоящее время существует функция _substitute_whitespace.

...