Question

Я использую lxml.html.cleaner для очистки html от входного текста. как я могу изменить \n на <br /> в lxml.html?

Tim McNamara · Answer 1 · 14 октября 2010

Довольно простой, немного хакерский способ: вы можете сделать это как часть двухэтапного процесса, предполагая, что вы использовали lxml.html.parse или любой другой метод для построения DOM.

итерация по тексту и хвостовым атрибутам узлов с заменой строк.Посмотрите на метод iterdescendants, который проходит через все для вас.
lxml.html.clean в соответствии с нормой

Более сложный способ состоял бы в том, чтобы обезьяна исправила lxml.html.clean модуль.В отличие от множества lxml, этот модуль написан на Python и довольно доступен.Например, в настоящее время существует функция _substitute_whitespace.

Python lxml.html переносы строк?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python lxml.html переносы строк?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы