От escape-html -> к обычному html? - питон - PullRequest
6 голосов
/ 19 марта 2010

Я использовал BeautifulSoup для обработки XML-файлов, собранных с помощью REST API.

Ответы содержат HTML-код, но BeautifulSoup экранирует все теги HTML, поэтому его можно красиво отобразить.

К сожалению, мне нужен HTML-код.


Как мне продолжить преобразование экранированного HTML-кода в правильную разметку?


Помощь будет очень признательна!

Ответы [ 2 ]

12 голосов
/ 19 марта 2010

Я думаю, вы хотите xml.sax.saxutils.unescape из стандартной библиотеки Python.

например:.

>>> from xml.sax import saxutils as su
>>> s = '<foo>bar</foo>'
>>> su.unescape(s)
'<foo>bar</foo>'
2 голосов
/ 19 марта 2010

Вы можете попробовать модуль urllib ?

У него есть метод unquote(), который может удовлетворить ваши потребности.

Редактировать: если подумать (и больше читать ваш вопрос), вы можете просто использовать string.replace()

Вот так:

string.replace('&lt;','<')
string.replace('&gt;','>')
...