Замените HTML-сущности соответствующими символами utf-8 в Python 2.6 - PullRequest
13 голосов
/ 08 апреля 2009

У меня есть такой HTML-текст:

<xml ... >

и я хочу преобразовать его в нечто читаемое:

<xml ...>

Есть ли простой (и быстрый) способ сделать это в Python?

Ответы [ 2 ]

21 голосов
/ 08 апреля 2009

Python 2.7

Официальная документация для HTMLParser: Python 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €

Python 3

Официальная документация для HTMLParser: Python 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €
1 голос
/ 08 апреля 2009

Здесь есть функция , которая делает это, как указано в посте, на который указал Фред Скопировано здесь, чтобы сделать вещи проще.

Благодарим Фреда Ларсона за ссылку на другой вопрос о SO. Благодарим dF за публикацию ссылки.

...