Регулярное выражение для удаления "'из строки в Python - PullRequest
2 голосов
/ 07 сентября 2011

Я получаю свой результат из RSS-канала, используя следующий код:

try:  
desc = item.xpath('description')[0].text
if date is not None:
    desc =date +"\n"+"\n"+desc
except:
    desc = None

Но иногда описание содержит несколько символов html Юникода в ленте, как показано ниже:

Текст из XML выглядит как «и с» и другими & ...; вещами

При отображении содержимого я не хочу, чтобы они отображались. Есть ли регулярное выражение для удаления тегов HTML.

1 Ответ

1 голос
/ 07 сентября 2011

Я использовал что-то под названием «Unescaping XML», не знаю, полезно ли это вам.

см .: http://wiki.python.org/moin/EscapingXml

from xml.sax.saxutils import unescape

unescape("< & >")

'< & >'




unescape("&apos; &quot;", {"&apos;": "'", "&quot;": '"'})

'\' "'

редактировать

Только что видел это, может быть, интересно. (Не проверено): unescape с urllib

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...